我在不同的网站上运行了几个蜘蛛。大多数运行需要2-3天,许多工作正常。但有时它会发生,爬行只是停止或崩溃?
使用:
scrapy crawl myspider > logs/myspider.log 2>&1 &
我正在将输出写入文件并进行一次抓取,例如最后一个条目是:
[scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min)
它只是停在那里。没有倾倒任何统计数据,并没有结束一切。
现在我认为可能是网络问题或类似问题?
机器的平均负载为0.10,我正在以40秒的延迟进行报废并运行5-10个蜘蛛。硬件很旧但RAM和CPU通常在htop
中无聊。我没有更改LOG_LEVEL
,因此默认情况下应为DEBUG
。
我怎样才能知道会发生什么?