我对网络爬虫的编码和使用不熟悉,因此在解释或帮助我即将完成的任务时将非常感谢。
我正在尝试创建一个在所有网站上都可以使用的网络抓取工具,而无需明确指出需要提取的网站的特定HTML部分。目前,我所见过的所有webscrfapers都需要指定网页中要从中提取数据的特定部分。
就我而言,我不需要提取某些特定数据,例如数百种商品的价格或新闻报道的数量。我需要的是搜索一个特定的网站,如果该网站包含特定的关键字,并且确实如此,则突出显示找到的关键字以及找到该网址的网址。
另一个要求是,网络爬虫应使用网站具有的不同URL。例如,如果我的投资组合中有一个网站www.website.com,则我需要网络爬虫浏览所有或至少某些指定数量的子网站,例如website.com/termsandconditions,website.com/faq等。< / p>
这是可以使人抓狂的东西吗?
先谢谢您