我使用scrapy-redis.
编写了一个分布式蜘蛛
起初,一切似乎都很好。
设置文件:
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
但是,在抓取所有网址后,一个蜘蛛关闭,但另一个没有 - 并开始重新抓取已经抓取的网址。
任何人都可以帮助我,并解释原因吗?
答案 0 :(得分:0)
我已经解决了这个问题!由于使用" def close_spider(self,spider)错误的参数设置,蜘蛛没有正常关闭:"功能。