应用错误收集

我对网络爬虫的编码和使用不熟悉，因此在解释或帮助我即将完成的任务时将非常感谢。

我正在尝试创建一个在所有网站上都可以使用的网络抓取工具，而无需明确指出需要提取的网站的特定HTML部分。目前，我所见过的所有webscrfapers都需要指定网页中要从中提取数据的特定部分。

就我而言，我不需要提取某些特定数据，例如数百种商品的价格或新闻报道的数量。我需要的是搜索一个特定的网站，如果该网站包含特定的关键字，并且确实如此，则突出显示找到的关键字以及找到该网址的网址。

另一个要求是，网络爬虫应使用网站具有的不同URL。例如，如果我的投资组合中有一个网站www.website.com，则我需要网络爬虫浏览所有或至少某些指定数量的子网站，例如website.com/termsandconditions，website.com/faq等。< / p>

这是可以使人抓狂的东西吗？

先谢谢您