使用 scrapyd 我可以在多个核心上运行 scrapy 。
我使用scrapy进行以下调用:
scrapy crawl buch
根据信息,没有多处理器用法:
Scrapy不使用多线程,也不会使用多个核心。如果您的蜘蛛是CPU绑定的,通常的加速方法是使用多个单独的scrapy进程,避免使用python GIL的任何瓶颈。
此信息基于: CPU-intensive parsing with scrapy
我现在如何使用scrapyd在所有核心上使用Scrapy,如上例所示?
问题出在那里,我不能简单地开始并行,然后避免刮刀全部运行相同的列表,然后并行地抓取相同的东西而不分割他们的URL列表来抓取。