应用错误收集

网络搜寻器如何构建URL目录以刮取所需的内容

时间：2018-10-11 16:28:28

标签： web web-scraping web-crawler search-engine

我试图了解网络爬网的工作方式。有3个问题：

我们是否必须具有URL的初始目录才能构建更大的URL URL目录？如何运作？
是否有任何开源用python编写的网络爬虫？
哪里是最好的了解Web的地方爬虫？

1 个答案:

答案 0 :(得分：0)

首先回答您的第二个问题； Scrapy是使用python进行网页抓取的好工具。

使用它时，有多种启动蜘蛛网的方法。可以为CrawlSpider提供一个初始URL列表作为起点。然后，它会抓取这些页面以寻找新的链接，这些链接已添加到要搜索的页面队列中。

使用它的另一种方法是使用站点地图蜘蛛。对于这个蜘蛛，您可以为搜寻器提供网站站点地图URL的列表。然后，蜘蛛程序会从站点地图中查找页面列表并进行爬网。