我知道初始种子是由平面文件提供的。但是,这些网址注入了哪里?是crawlDB吗?如果是这种情况,抓取工具提取的新链接是否会存储回crawlDB?当系统关闭时会发生什么,是否会在下次nutch启动时刷新crawlDB?
实际上我希望nutch在系统关闭的情况下从中断处继续爬行。
答案 0 :(得分:1)
是的,注射将您的平面种子列表转换为crawldb中的条目。在更新步骤期间,解析步骤发现的新链接将与现有crawldb合并。 Nutch不会自行恢复爬行,如果系统关闭,你将不得不重新启动Nutch脚本,并且要采取的操作将取决于停止时的位置。
如果您需要一个在发生故障时恢复自身的连续爬虫,StormCrawler可能是更好的选择。
有很多Nutch教程可以帮助理解它是如何工作的,包括描述Nutch和StormCrawler的on from our blog。