标签: web web-scraping web-crawler search-engine
我试图了解网络爬网的工作方式。有3个问题:
答案 0 :(得分:0)
首先回答您的第二个问题; Scrapy是使用python进行网页抓取的好工具。
使用它时,有多种启动蜘蛛网的方法。可以为CrawlSpider提供一个初始URL列表作为起点。然后,它会抓取这些页面以寻找新的链接,这些链接已添加到要搜索的页面队列中。
使用它的另一种方法是使用站点地图蜘蛛。对于这个蜘蛛,您可以为搜寻器提供网站站点地图URL的列表。然后,蜘蛛程序会从站点地图中查找页面列表并进行爬网。