一个接一个地运行多个蜘蛛

时间:2014-02-11 06:07:34

标签: python scrapy scrapyd

我正在使用Scrapy框架让蜘蛛爬过一些网页。基本上,我想要的是废弃网页并将其保存到数据库。我每个网页都有一个蜘蛛。但我很难立刻运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行后开始爬行。怎么能实现呢? scrapyd是解决方案吗?

1 个答案:

答案 0 :(得分:1)

scrapyd确实是一个很好的方法,max_procmax_proc_per_cpu配置可以用来限制并行spdiers的数量,然后你会schedule使用scrapyd rest api的蜘蛛:

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider