应用错误收集

时间：2016-09-09 07:15:58

标签： web-crawler nutch

我知道初始种子是由平面文件提供的。但是，这些网址注入了哪里？是crawlDB吗？如果是这种情况，抓取工具提取的新链接是否会存储回crawlDB？当系统关闭时会发生什么，是否会在下次nutch启动时刷新crawlDB？

实际上我希望nutch在系统关闭的情况下从中断处继续爬行。

答案 0 :(得分：1)

是的，注射将您的平面种子列表转换为crawldb中的条目。在更新步骤期间，解析步骤发现的新链接将与现有crawldb合并。 Nutch不会自行恢复爬行，如果系统关闭，你将不得不重新启动Nutch脚本，并且要采取的操作将取决于停止时的位置。

如果您需要一个在发生故障时恢复自身的连续爬虫，StormCrawler可能是更好的选择。

有很多Nutch教程可以帮助理解它是如何工作的，包括描述Nutch和StormCrawler的on from our blog。