Question

我正在使用Scrapy框架让蜘蛛爬过一些网页。基本上，我想要的是废弃网页并将其保存到数据库。我每个网页都有一个蜘蛛。但我很难立刻运行这些蜘蛛，以至于蜘蛛在另一只蜘蛛完成爬行后开始爬行。怎么能实现呢？ scrapyd是解决方案吗？

Answer 1

scrapyd确实是一个很好的方法，max_proc或max_proc_per_cpu配置可以用来限制并行spdiers的数量，然后你会schedule使用scrapyd rest api的蜘蛛：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider