应用错误收集

有没有办法继续Nutch Crawl任务已被意外杀死？

时间：2012-04-07 15:19:39

标签： java lucene web-crawler nutch

我有一个Nutch抓取任务，一直运行一整天，直到我错误地杀死了这个过程。

我不想重新抓取种子（花费很多时间），所以我想知道是否有一种方法或一些Nutch Crawler参数，可以让爬虫忽略那些已被抓取的网址。 / p>

非常感谢！

1 个答案:

答案 0 :(得分：0)

开始抓取后，可能会在输出目录中创建一些段。使用bin/nutch命令并将-dir选项指向上一次运行的输出目录。对于urlDir参数，创建一个带有单个url的虚拟参数（如果urldir没有任何url，则只是为了远离错误。）