应用错误收集

Scrapy并发或分布式爬网

时间：2015-05-27 16:45:04

标签： concurrency scrapy distributed

我想使用scrapy来抓取相当大的网站。在某些情况下，我已经有了scrape的链接，而在其他情况下，我需要提取（抓取）它们。我还需要在运行时访问数据库两次。一旦为了确定是否需要刮取网址（Spider中间件）和一次以便存储提取的信息（项目管道）。理想情况下，我可以运行并发或分布式爬网以加快速度。使用scrapy运行并发或分布式爬网的推荐方法是什么？

2 个答案:

答案 0 :(得分：0)

您应该查看scrapy_redis。

实施起来非常简单。您的scheduler和duplicate filter将存储在redis队列中。所有的蜘蛛都会同时工作，你应该加快你的爬行时间。

希望这有帮助。

答案 1 :(得分：0)

Scrapy Cluster文档包含一个page，其中列出了许多现有的基于Scrapy的分布式爬网解决方案。

Scrapy - Spider抓取重复的网址
Scrapy只抓第1页
Scrapy并发或分布式爬网
CrawlSpider仅抓取start_urls
Scrapy只抓取一页
Scrapy爬行但不刮
Scrapy只抓取一页
Scrapy CrawlSpider什么都没爬
蜘蛛爬网0页
Scrapy在<button rel =“ next”>上爬行

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？