抓取爬网消耗的未计时间

时间:2019-10-04 10:40:55

标签: scrapy twisted scrapinghub

我一直在尝试在时间受限制的环境中运行scrapy爬网,我们希望确保在固定的运行时间限制后scrapy停止。

我们将以下CLOSESPIDER_TIMEOUT设置为60 seconds,将DOWNLOAD_TIMEOUT设置为30 seconds

我们在90 seconds处设置了强制终止(杀死子进程),以解决极端情况,如果在59秒内发出页面请求并且扭曲下载页面失败并且触发了下载超时信号。 (59 + 30 = 89 <90秒)

,但脚本仍会随机运行一段时间。范围介于102-115 seconds之间。

我不确定在15-30秒内使用此变量以及为什么scrapy无法在90秒后正常关闭

我期待回答解释引入这种滞后的刮板/扭曲反应堆架构

谢谢

0 个答案:

没有答案