我正在使用Scrapy框架让蜘蛛爬过一些网页。基本上,我想要的是废弃网页并将其保存到数据库。我每个网页都有一个蜘蛛。但我很难立刻运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行后开始爬行。怎么能实现呢? scrapyd是解决方案吗?
答案 0 :(得分:1)
scrapyd确实是一个很好的方法,max_proc或max_proc_per_cpu配置可以用来限制并行spdiers的数量,然后你会schedule使用scrapyd rest api的蜘蛛:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider