应用错误收集

使用selenium以递归方式浏览链接

时间：2014-05-18 00:48:10

标签： python selenium

我想知道是否可以使用python selenium浏览网站中的所有链接（包括父链接和子链接）（例如：yahoo.com），

获取主页中的所有链接，
打开其中的每一个
将子链接中的所有链接打开到三个四个级别。

我在python上使用selenium。

由于 Ala'a

2 个答案:

答案 0 :(得分：0)

当然可以，但是当您在一个浏览器中工作时，您必须指示selenium逐个输入这些链接。

如果页面没有浏览器中JavaScript呈现的链接，通过直接http请求获取这些页面并以这种方式处理它会更有效。在这种情况下，我建议使用requests。但是，即使使用requests，您的代码也可以找到页面中的所有网址，并跟进获取这些网页。

可能还有其他Python程序包专门用于此类任务，但在这里我无法提供真实的体验。

答案 1 :(得分：0)

你想＆＃34; web-scraping＆＃34;像Scrapy和可能Beautifulsoup4这样的软件 - 第一个用于构建一个名为＆＃34; spider＆＃34;的程序。哪个＆＃34;爬行＆＃34;通过网页，从中提取结构化数据，并遵循其中的某些（或所有）链接。 BS4也用于从网页中提取数据，并结合像requests这样的库可用于构建自己的蜘蛛，尽管此时像Scrapy这样的东西可能与你需要的东西更相关。

有很多教程和示例可以帮助您 - 只需从上面链接的Google搜索开始。