有没有办法继续Nutch Crawl任务已被意外杀死?

时间:2012-04-07 15:19:39

标签: java lucene web-crawler nutch

我有一个Nutch抓取任务,一直运行一整天,直到我错误地杀死了这个过程。

我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数,可以让爬虫忽略那些已被抓取的网址。 / p>

非常感谢!

1 个答案:

答案 0 :(得分:0)

开始抓取后,可能会在输出目录中创建一些段。使用bin/nutch命令并将-dir选项指向上一次运行的输出目录。对于urlDir参数,创建一个带有单个url的虚拟参数(如果urldir没有任何url,则只是为了远离错误。)