Scrapy:downloader / response_count vs response_received_count

时间:2018-01-02 17:33:59

标签: python web-scraping scrapy web-crawler

我正在使用scrapy抓取多个网站,我想分析抓取速度。 最后转储的统计信息包含downloader/response_count值和response_received_count值。前者系统地大于后者。

为什么存在差异以及爬虫的哪个元素会增加统计信息收集器中的两个值?

1 个答案:

答案 0 :(得分:8)

  • contenteditable = true是负责CoreStats
  • Extension
  • response_received_count是负责DownloaderStats的{​​{3}}。

downloader/response_count扩展程序正在连接CoreStats的信号以递增signals.response_received的值,因此它应该计算您获得的每个响应(甚至是错误的状态),而{{1}我们可以看到Middleware中间件处理特定订单上的响应,因此以前的下载中间件(设置数字低于response_received_count的中间件可能会丢失甚至出错处理响应,而{{} 1}}永远不会增加。