Scrapy并发或分布式爬网

时间:2015-05-27 16:45:04

标签: concurrency scrapy distributed

我想使用scrapy来抓取相当大的网站。在某些情况下,我已经有了scrape的链接,而在其他情况下,我需要提取(抓取)它们。我还需要在运行时访问数据库两次。一旦为了确定是否需要刮取网址(Spider中间件)和一次以便存储提取的信息(项目管道)。 理想情况下,我可以运行并发或分布式爬网以加快速度。使用scrapy运行并发或分布式爬网的推荐方法是什么?

2 个答案:

答案 0 :(得分:0)

您应该查看scrapy_redis

实施起来非常简单。您的schedulerduplicate filter将存储在redis队列中。所有的蜘蛛都会同时工作,你应该加快你的爬行时间。

希望这有帮助。

答案 1 :(得分:0)

Scrapy Cluster文档包含一个page,其中列出了许多现有的基于Scrapy的分布式爬网解决方案。