我对Scrapy中DOWNLOAD_DELAY
和MAX_CONCURRENT_REQUESTS_PER_DOMAIN
之间的差异和互动感到非常困惑。
下载延迟会影响每个域的最大并发请求数,例如,如果我设置了10秒的延迟但每个域允许8个并发请求,那些并发请求不会同时触发,而是根据下载延迟交错或者他们会同时被解雇但是回复的下载是错开的吗?是否有任何理由DOWNLOAD_DELAY
没有被称为REQUEST_DELAY
?
例如,在以下场景中,封装后的吞吐量计算会是什么:
start_urls
拥有指定域名的100个网址MAX_CONCURRENT_REQUESTS_PER_DOMAIN = 8
DOWNLOAD_DELAY = 3
start_urls
关联的蜘蛛处理此队列需要多长时间?
答案 0 :(得分:1)
从下载程序source代码
conc = self.ip_concurrency if self.ip_concurrency else self.domain_concurrency
conc, delay = _get_concurrency_delay(conc, spider, self.settings)
所以看起来行为与this相同,后者说
This setting also affects DOWNLOAD_DELAY: if CONCURRENT_REQUESTS_PER_IP is non-zero, download delay is enforced per IP, not per domain.
所以我不认为你会通过大量的download_delay实现更多的并发性。我在具有自动限制的慢速网络上运行爬虫,并且一次不超过2-3个并发请求。