nutch生成器是否使用CrawlDB进行初始链接?

时间:2016-09-09 07:15:58

标签: web-crawler nutch

我知道初始种子是由平面文件提供的。但是,这些网址注入了哪里?是crawlDB吗?如果是这种情况,抓取工具提取的新链接是否会存储回crawlDB?当系统关闭时会发生什么,是否会在下次nutch启动时刷新crawlDB?

实际上我希望nutch在系统关闭的情况下从中断处继续爬行。

1 个答案:

答案 0 :(得分:1)

是的,注射将您的平面种子列表转换为crawldb中的条目。在更新步骤期间,解析步骤发现的新链接将与现有crawldb合并。 Nutch不会自行恢复爬行,如果系统关闭,你将不得不重新启动Nutch脚本,并且要采取的操作将取决于停止时的位置。

如果您需要一个在发生故障时恢复自身的连续爬虫,StormCrawler可能是更好的选择。

有很多Nutch教程可以帮助理解它是如何工作的,包括描述Nutch和StormCrawler的on from our blog