网络搜寻器如何构建URL目录以刮取所需的内容

时间:2018-10-11 16:28:28

标签: web web-scraping web-crawler search-engine

我试图了解网络爬网的工作方式。有3个问题:

  1. 我们是否必须具有URL的初始目录才能构建更大的URL URL目录?如何运作?
  2. 是否有任何开源     用python编写的网络爬虫?
  3. 哪里是最好的了解Web的地方         爬虫?

1 个答案:

答案 0 :(得分:0)

首先回答您的第二个问题; Scrapy是使用python进行网页抓取的好工具。

使用它时,有多种启动蜘蛛网的方法。可以为CrawlSpider提供一个初始URL列表作为起点。然后,它会抓取这些页面以寻找新的链接,这些链接已添加到要搜索的页面队列中。

使用它的另一种方法是使用站点地图蜘蛛。对于这个蜘蛛,您可以为搜寻器提供网站站点地图URL的列表。然后,蜘蛛程序会从站点地图中查找页面列表并进行爬网。