我想在抓取抓取完成后收集并解析统计信息。我知道它会转储统计信息,但是理想情况下,我想有一个方法/挂钩一个方法,该方法/方法可以在刮擦完成时运行,然后可以收集统计信息(因为我将使用它们来确定是否需要自动进行其他刮擦)。>
请不要建议使用某种外部脚本,我希望所有内容都包含在一个项目中。
答案 0 :(得分:0)
尝试使用以下命令保存Spider的进度:
nohup scrapy crawl spider > spider_progress &
仅查看文本文件的尾部,其中包含Spider的统计信息:
cat spider_progress | tail
答案 1 :(得分:0)
尝试在自定义close_spider
的{{1}}方法中收集统计信息,该方法将在抓取过程完成后运行。
pipeline