发布抓取统计信息集合

时间:2019-07-30 11:34:09

标签: python scrapy web-crawler

我想在抓取抓取完成后收集并解析统计信息。我知道它会转储统计信息,但是理想情况下,我想有一个方法/挂钩一个方法,该方法/方法可以在刮擦完成时运行,然后可以收集统计信息(因为我将使用它们来确定是否需要自动进行其他刮擦)。

请不要建议使用某种外部脚本,我希望所有内容都包含在一个项目中。

2 个答案:

答案 0 :(得分:0)

尝试使用以下命令保存Spider的进度: nohup scrapy crawl spider > spider_progress &
仅查看文本文件的尾部,其中包含Spider的统计信息: cat spider_progress | tail

答案 1 :(得分:0)

尝试在自定义close_spider的{​​{1}}方法中收集统计信息,该方法将在抓取过程完成后运行。

pipeline