Question

我刚接触硒。我正在使用硒提取谷歌搜索结果的链接。我想从搜索结果中获取所有链接。这就是html的外观，在：

<div class='r'>
   <a href="https://www.linkedin.com/in/thu-huong-trish-nguyen-7bba5722" ping="/url?
   sa=t&amp;source=web&amp;rct=j&amp;url=https://www.linkedin.com/in/thu-huong-trish-nguyen-
   7bba5722&amp;ved=2ahUKEwiqw5D0qt3rAhVG7J4KHd3GBbQQFjAAegQIAxAB"><br><h3 class="LC20lb 
   DKV0Md">Thu-Huong (Trish) Nguyen - Research Data Analyst II - LinkedIn</h3><div class="TbwUpd
   NJjxre"><cite class="iUh30 gBIQub bc tjvcx">www.linkedin.com<span class="eipWBe"> › ...    </span></cite></div></a>

其余结果具有完全相同的类类型和形式，我本质上希望使用 https://www.linkedin.com链接。我这样做是为了尝试

elems = driver.find_elements_by_xpath("//a[@href]")
for elem in elems:
    print(elem.get_attribute("href"))

这很好用，我几乎提取了Google搜索结果中的所有链接，但是唯一的问题是我只想要我指定的链接类型。我的代码返回我想要的链接和我不想要的大量链接。

我认为一个完美的解决方案是可以使用所有这些链接都属于类类型r的事实。

我尝试将r合并到driver.find_elements中，但没有在线找到任何解决方案。

任何想法

Answer 1

此XPath将帮助您获取a中所有包含https://www.linkedin.com的{{1}}标记。

href

在类名称中使用selenium href获取标签

1 个答案: