标签: java lucene web-crawler nutch
我有一个Nutch抓取任务,一直运行一整天,直到我错误地杀死了这个过程。
我不想重新抓取种子(花费很多时间),所以我想知道是否有一种方法或一些Nutch Crawler参数,可以让爬虫忽略那些已被抓取的网址。 / p>
非常感谢!
答案 0 :(得分:0)
开始抓取后,可能会在输出目录中创建一些段。使用bin/nutch命令并将-dir选项指向上一次运行的输出目录。对于urlDir参数,创建一个带有单个url的虚拟参数(如果urldir没有任何url,则只是为了远离错误。)
-dir
urlDir