Scrapy download_delay与max_concurrent_requests_per_domain

时间:2015-01-02 00:48:03

标签: python concurrency scrapy

我对Scrapy中DOWNLOAD_DELAYMAX_CONCURRENT_REQUESTS_PER_DOMAIN之间的差异和互动感到非常困惑。

下载延迟会影响每个域的最大并发请求数,例如,如果我设置了10秒的延迟但每个域允许8个并发请求,那些并发请求不会同时触发,而是根据下载延迟交错或者他们会同时被解雇但是回复的下载是错开的吗?是否有任何理由DOWNLOAD_DELAY没有被称为REQUEST_DELAY

例如,在以下场景中,封装后的吞吐量计算会是什么:

  • start_urls拥有指定域名的100个网址
  • MAX_CONCURRENT_REQUESTS_PER_DOMAIN = 8
  • DOWNLOAD_DELAY = 3
  • 假设服务器需要2秒钟才能生成响应
  • 假设我们不会生成除start_urls
  • 中已有的网址以外的其他网址

关联的蜘蛛处理此队列需要多长时间?

1 个答案:

答案 0 :(得分:1)

从下载程序source代码

conc = self.ip_concurrency if self.ip_concurrency else self.domain_concurrency
conc, delay = _get_concurrency_delay(conc, spider, self.settings)

所以看起来行为与this相同,后者说

This setting also affects DOWNLOAD_DELAY: if CONCURRENT_REQUESTS_PER_IP is non-zero, download delay is enforced per IP, not per domain.

所以我不认为你会通过大量的download_delay实现更多的并发性。我在具有自动限制的慢速网络上运行爬虫,并且一次不超过2-3个并发请求。