使用硒从页面中提取链接

时间:2020-06-04 08:15:44

标签: python-3.x selenium web-scraping webdriver

我对硒不熟悉,我正在研究如何使用硒来提取想要的东西

我想提取网页中的超链接,但只提取那些具有特定标签的超链接。超链接全部嵌套在以下结构中:

<a title="Chris Frye" class="_32mo" href="https://www.facebook.com/CnMFrye"><span>Chris Frye</span></a>

但是,当我使用标签'a'时,我意识到它会刮擦其他超链接,因此我认为我需要同时对标签'a'和'class'进行条件处理。

在这种情况下,正确的策略是什么?我似乎无法使用driver.find_elements_by_tag_name,因为这仅适用于单个标签。

我要抓取的页面是:https://www.facebook.com/public/chris-frye

1 个答案:

答案 0 :(得分:0)

您可以像下面这样使用css选择器:

elements = driver.find_elements_by_css_selector('a._32mo')

或使用xpath:

elements = driver.find_elements_by_xpath("//a[@class='_32mo']")