如何从一个链接刮取网站及其所有目录?

时间:2018-04-15 10:07:04

标签: python web

很抱歉,如果这不是一个有效的问题,我个人觉得这样的边缘人物。

假设所涉及的网站已获得完全许可 如何使用python数据scraper下载该网站的整个内容(html)。根据整个内容,我不仅指您所在的当前页面,还指从该主网站分支出来的任何其他目录。例如

使用链接:

  

https://www.dogs.com

我可以从中获取信息:

  

https://www.dogs.com/about-us

以及附加到" https://www.dogs.com/"的任何其他目录 (我不知道dog.com是不是真正的网站,只是一个例子)

我已经制作了一个刮刀,它将从某个链接中提取信息(仅此而已),但我想进一步改进它,所以我不必拥有大量的链接。我知道我可以使用API​​,但如果这是可能的,我宁愿这样做。干杯!

1 个答案:

答案 0 :(得分:1)

虽然scrapy专业地执行此操作,但您可以使用requests获取url数据,使用bs4来解析html并查看进去。我猜这对初学者来说也比较容易。

无论如何,你需要有一个起点,然后你只需按照页面中的链接,然后在这些页面中链接。

您可能需要检查url是否链接到其他网站或是否仍在目标网站中。逐个查找页面并scrape