我已经添加了草率设置:
CONCURRENT_REQUESTS = 8
和DOWNLOAD_DELAY = 1
因此,我应该每分钟有8 * 60的抓取页面。但是,scrapy的行为类似于CONCURRENT_REQUESTS = 1
。每分钟仅刮取60页。
scrapy bench
:
2018-11-05 22:38:03 [scrapy.extensions.logstats] INFO: Crawled 7 pages (at 60 pages/min), scraped 0 items (at 0 items/min)
telnet localthost:6023
:
time()-engine.start_time : 22.815539360046387
engine.has_capacity() : False
len(engine.downloader.active) : 16
engine.scraper.is_idle() : False
engine.spider.name : historic
engine.spider_is_idle(engine.spider) : False
engine.slot.closing : False
len(engine.slot.inprogress) : 16
len(engine.slot.scheduler.dqs or []) : 0
len(engine.slot.scheduler.mqs) : 49
len(engine.scraper.slot.queue) : 0
len(engine.scraper.slot.active) : 0
engine.scraper.slot.active_size : 0
engine.scraper.slot.itemproc_size : 0
engine.scraper.slot.needs_backout() : False
无论我要添加多少CONCURRENT_REQUESTS
,都没有改变。
我不知道如何使刮y速度更快。如何开始更多CONCURRENT_REQUESTS
?这种情况的原因是什么?