我有一个(非免费的)scrapinghub帐户中运行的抓爬式蜘蛛,有时需要OCR PDF(通过Tesseract)-根据单元数的不同,该过程可能会花费一些时间。
我在日志中看到的是这样的:
2220: 2019-07-07 22:51:50 WARNING [tools.textraction] PDF contains only images - running OCR.
2221: 2019-07-08 00:00:03 INFO [scrapy.crawler] Received SIGTERM, shutting down gracefully. Send again to force
SIGTERM
总是在消息说OCR开始后大约一小时到达,因此我假设有一种机制可以在一个小时内没有新请求或新项目的情况下杀死所有内容。
我该如何挂钩并防止关机?这是signal.spider_idle
的示例吗?