现在我计划以更分散的方式使用scrapy,而我不是 确定是否有蜘蛛/管道/下载/调度程序和引擎 所有人都可以共享一些进程或线程 关于这个的信息?我们可以改变每个的进程/线程数 零件?我知道现在有两个设置“CONCURRENT_REQUESTS”和 “CONCURRENT_ITEMS”,它们将确定并发线程 下载和管道,对吧?如果我想部署蜘蛛/ 不同机器中的管道/下载器,我需要序列化 物品/要求/回应,对吧? 非常感谢您的帮助!!
谢谢, 爱德华。
答案 0 :(得分:4)
Scrapy是单线程的。它使用Reactor pattern来实现并发网络请求。这是使用Twisted框架完成的。
想要分发Scrapy的人通常会尝试实现一些消息传递框架。一些use Redis,其他一些try RabbitMQ
另请查看Scrapyd