Apache Nutch重新启动爬网

时间:2017-06-19 14:30:03

标签: apache hadoop web-crawler nutch

我在本地模式下运行Apache Nutch 1.12。

我需要编辑种子文件以删除子域并添加一些新域,并希望从头开始重新开始抓取。

问题是每当我重新开始抓取时,抓取会从我停止抓取的位置重新启动,这位于我删除的子域中间。

我通过杀死java进程(kill -9)来停止爬行 - 我尝试在bin目录中创建一个.STOP文件但是没有用,所以我用了kill。

现在每当我重新启动抓取时,我都可以从输出中看到它正在重新启动作业停止的位置。我用谷歌搜索并遇到停止hadoop的工作,但我的服务器上没有任何hadoop文件 - hadoop的唯一引用是apache nutch目录中的jar文件。

如何从一开始就重新开始抓取,而不是从上次停止抓取的位置开始?实际上我想开始新的爬行。

非常感谢

1 个答案:

答案 0 :(得分:0)

要从头开始,只需指定其他抓取目录或删除现有抓取目录。

从种子列表中删除条目不会影响crawldb或段的内容。如果不从零重新开始删除域,您可以做的是向URL过滤器添加一个模式,以便在更新步骤期间从crawldb中删除URL,或者至少在生成步骤中不选择这些URL。