我想使用scrapy来抓取相当大的网站。在某些情况下,我已经有了scrape的链接,而在其他情况下,我需要提取(抓取)它们。我还需要在运行时访问数据库两次。一旦为了确定是否需要刮取网址(Spider中间件)和一次以便存储提取的信息(项目管道)。 理想情况下,我可以运行并发或分布式爬网以加快速度。使用scrapy运行并发或分布式爬网的推荐方法是什么?
答案 0 :(得分:0)
您应该查看scrapy_redis。
实施起来非常简单。您的scheduler
和duplicate filter
将存储在redis队列中。所有的蜘蛛都会同时工作,你应该加快你的爬行时间。
希望这有帮助。
答案 1 :(得分:0)
Scrapy Cluster文档包含一个page,其中列出了许多现有的基于Scrapy的分布式爬网解决方案。