我正在使用scrapy
抓取多个网站,我想分析抓取速度。
最后转储的统计信息包含downloader/response_count
值和response_received_count
值。前者系统地大于后者。
为什么存在差异以及爬虫的哪个元素会增加统计信息收集器中的两个值?
答案 0 :(得分:8)
contenteditable = true
是负责CoreStats
Extension
response_received_count
是负责DownloaderStats
的{{3}}。 downloader/response_count
扩展程序正在连接CoreStats
的信号以递增signals.response_received
的值,因此它应该计算您获得的每个响应(甚至是错误的状态),而{{1}我们可以看到Middleware
中间件处理特定订单上的响应,因此以前的下载中间件(设置数字低于response_received_count
的中间件可能会丢失甚至出错处理响应,而{{} 1}}永远不会增加。