我想知道是否可以使用python selenium浏览网站中的所有链接(包括父链接和子链接)(例如:yahoo.com),
我在python上使用selenium。
由于 Ala'a
答案 0 :(得分:0)
当然可以,但是当您在一个浏览器中工作时,您必须指示selenium逐个输入这些链接。
如果页面没有浏览器中JavaScript呈现的链接,通过直接http请求获取这些页面并以这种方式处理它会更有效。在这种情况下,我建议使用requests
。但是,即使使用requests
,您的代码也可以找到页面中的所有网址,并跟进获取这些网页。
可能还有其他Python程序包专门用于此类任务,但在这里我无法提供真实的体验。
答案 1 :(得分:0)
你想" web-scraping"像Scrapy
和可能Beautifulsoup4
这样的软件 - 第一个用于构建一个名为" spider"的程序。哪个"爬行"通过网页,从中提取结构化数据,并遵循其中的某些(或所有)链接。 BS4也用于从网页中提取数据,并结合像requests
这样的库可用于构建自己的蜘蛛,尽管此时像Scrapy这样的东西可能与你需要的东西更相关。
有很多教程和示例可以帮助您 - 只需从上面链接的Google搜索开始。