我觉得scrapy在每秒链接方面没有给我很好的表现。为了调试,我将scrapy配置为通过squid代理发送请求并记录通过代理传递的所有请求。
根据我的分析,显然scrapy甚至没有使用20%的吞吐量。 我们已经为每个域提供了8个并发请求,以下是我们构建的请求利用率图表
上面的每个棕色框都是不同的HTTP请求。 我们有8行,因为每个域有8个并发请求。
正如您所看到的,两组连续并发请求之间存在巨大延迟。
我将DOWNLOAD_DELAY设为0,仍然是同一个故事。
请建议我可以节制的内容,以便scrapy利用其所有吞吐量进行下载
在收到HTML后,我还删除了任何涉及的处理。我也在使用内存队列。