使用硒bs4和python从网站中提取链接

时间:2019-07-20 16:43:08

标签: python selenium beautifulsoup grequests

好的。

标题似乎已经被问过了这个问题,但是我没有运气找到答案。

我需要有关使用python制作链接提取程序的帮助。

实际上是可行的。它查找网页上的所有元素。接受其href =“”并将其放入数组。然后将其导出到csv文件中。这就是我想要的。

但是我无法掌握一件事。

网站是动态的,因此我正在使用Selenium webdriver获得JavaScript结果。

程序代码非常简单。我使用webdriver打开网站,然后获取其内容。然后我得到所有链接

results = driver.find_elements_by_tag_name('a')

然后我使用for循环遍历结果并使用

获取href
result.get_attribute("href")

我将结果存储在数组中,然后打印出来。

但是问题是我无法获得链接的名称。

<a href="https://www.google.com">This leads to Google</a>

有没有办法获取“这导致Google”字符串。

存储在数组中的每个链接都需要它。

谢谢您的时间

更新!!!!!

似乎只有它的动态链接。我只是注意到这一点。现在真的很奇怪。对于硬编码的项目,它返回空字符串。对于动态链接,它返回其名称。

1 个答案:

答案 0 :(得分:0)

好的。所以。答案是,应该使用get_attribute(“ textContent”)来使用.text。比get_attribute(“ innerHTML”)效果更好

感谢KunduK的回答。你救了我的日子:)