我刚接触硒。我正在使用硒提取谷歌搜索结果的链接。我想从搜索结果中获取所有链接。这就是html的外观,在:
中找到了我要提取的链接类型。<div class='r'>
<a href="https://www.linkedin.com/in/thu-huong-trish-nguyen-7bba5722" ping="/url?
sa=t&source=web&rct=j&url=https://www.linkedin.com/in/thu-huong-trish-nguyen-
7bba5722&ved=2ahUKEwiqw5D0qt3rAhVG7J4KHd3GBbQQFjAAegQIAxAB"><br><h3 class="LC20lb
DKV0Md">Thu-Huong (Trish) Nguyen - Research Data Analyst II - LinkedIn</h3><div class="TbwUpd
NJjxre"><cite class="iUh30 gBIQub bc tjvcx">www.linkedin.com<span class="eipWBe"> › ... </span></cite></div></a>
其余结果具有完全相同的类类型和形式,我本质上希望使用https://www.linkedin.com链接。我这样做是为了尝试
elems = driver.find_elements_by_xpath("//a[@href]")
for elem in elems:
print(elem.get_attribute("href"))
这很好用,我几乎提取了Google搜索结果中的所有链接,但是唯一的问题是我只想要我指定的链接类型。我的代码返回我想要的链接和我不想要的大量链接。
我认为一个完美的解决方案是可以使用所有这些链接都属于类类型r的事实。
我尝试将r合并到driver.find_elements中,但没有在线找到任何解决方案。
任何想法
答案 0 :(得分:0)
此XPath将帮助您获取a
中所有包含https://www.linkedin.com
的{{1}}标记。
href