scrapy中连续请求之间的巨大意外延迟

时间:2017-08-03 17:21:02

标签: python concurrency web-scraping scrapy

我觉得scrapy在每秒链接方面没有给我很好的表现。为了调试,我将scrapy配置为通过squid代理发送请求并记录通过代理传递的所有请求。

根据我的分析,显然scrapy甚至没有使用20%的吞吐量。 我们已经为每个域提供了8个并发请求,以下是我们构建的请求利用率图表

enter image description here

上面的每个棕色框都是不同的HTTP请求。 我们有8行,因为每个域有8个并发请求。

正如您所看到的,两组连续并发请求之间存在巨大延迟。

我将DOWNLOAD_DELAY设为0,仍然是同一个故事。

请建议我可以节制的内容,以便scrapy利用其所有吞吐量进行下载

在收到HTML后,我还删除了任何涉及的处理。我也在使用内存队列。

0 个答案:

没有答案