应用错误收集

很抱歉，如果这不是一个有效的问题，我个人觉得这样的边缘人物。

假设所涉及的网站已获得完全许可如何使用python数据scraper下载该网站的整个内容（html）。根据整个内容，我不仅指您所在的当前页面，还指从该主网站分支出来的任何其他目录。例如

使用链接：

https://www.dogs.com

我可以从中获取信息：

https://www.dogs.com/about-us

以及附加到＆＃34; https://www.dogs.com/＆＃34;的任何其他目录（我不知道dog.com是不是真正的网站，只是一个例子）

我已经制作了一个刮刀，它将从某个链接中提取信息（仅此而已），但我想进一步改进它，所以我不必拥有大量的链接。我知道我可以使用API，但如果这是可能的，我宁愿这样做。干杯！

虽然scrapy专业地执行此操作，但您可以使用requests获取url数据，使用bs4来解析html并查看进去。我猜这对初学者来说也比较容易。

无论如何，你需要有一个起点，然后你只需按照页面中的链接，然后在这些页面中链接。

您可能需要检查url是否链接到其他网站或是否仍在目标网站中。逐个查找页面并scrape。