长时间运行的scrapy爬行中止

时间:2017-07-06 12:43:20

标签: debugging logging scrapy

我在不同的网站上运行了几个蜘蛛。大多数运行需要2-3天,许多工作正常。但有时它会发生,爬行只是停止或崩溃?

使用:

scrapy crawl myspider > logs/myspider.log 2>&1 &

我正在将输出写入文件并进行一次抓取,例如最后一个条目是:

[scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min)

它只是停在那里。没有倾倒任何统计数据,并没有结束一切。

现在我认为可能是网络问题或类似问题? 机器的平均负载为0.10,我正在以40秒的延迟进行报废并运行5-10个蜘蛛。硬件很旧但RAM和CPU通常在htop中无聊。我没有更改LOG_LEVEL,因此默认情况下应为DEBUG

我怎样才能知道会发生什么?

0 个答案:

没有答案