使用selenium以递归方式浏览链接

时间:2014-05-18 00:48:10

标签: python selenium

我想知道是否可以使用python selenium浏览网站中的所有链接(包括父链接和子链接)(例如:yahoo.com),

     
  • 获取主页中的所有链接,  
  • 打开其中的每一个  
  • 将子链接中的所有链接打开到三个四个级别。

我在python上使用selenium。

由于 Ala'a

2 个答案:

答案 0 :(得分:0)

当然可以,但是当您在一个浏览器中工作时,您必须指示selenium逐个输入这些链接。

如果页面没有浏览器中JavaScript呈现的链接,通过直接http请求获取这些页面并以这种方式处理它会更有效。在这种情况下,我建议使用requests。但是,即使使用requests,您的代码也可以找到页面中的所有网址,并跟进获取这些网页。

可能还有其他Python程序包专门用于此类任务,但在这里我无法提供真实的体验。

答案 1 :(得分:0)

你想" web-scraping"像Scrapy和可能Beautifulsoup4这样的软件 - 第一个用于构建一个名为" spider"的程序。哪个"爬行"通过网页,从中提取结构化数据,并遵循其中的某些(或所有)链接。 BS4也用于从网页中提取数据,并结合像requests这样的库可用于构建自己的蜘蛛,尽管此时像Scrapy这样的东西可能与你需要的东西更相关。

有很多教程和示例可以帮助您 - 只需从上面链接的Google搜索开始。