Question

我想在抓取抓取完成后收集并解析统计信息。我知道它会转储统计信息，但是理想情况下，我想有一个方法/挂钩一个方法，该方法/方法可以在刮擦完成时运行，然后可以收集统计信息（因为我将使用它们来确定是否需要自动进行其他刮擦）。

请不要建议使用某种外部脚本，我希望所有内容都包含在一个项目中。

Answer 1

尝试使用以下命令保存Spider的进度： nohup scrapy crawl spider > spider_progress &
仅查看文本文件的尾部，其中包含Spider的统计信息： cat spider_progress | tail

Answer 2

尝试在自定义close_spider的{{1}}方法中收集统计信息，该方法将在抓取过程完成后运行。

pipeline