我在本地模式下运行Apache Nutch 1.12。
我需要编辑种子文件以删除子域并添加一些新域,并希望从头开始重新开始抓取。
问题是每当我重新开始抓取时,抓取会从我停止抓取的位置重新启动,这位于我删除的子域中间。
我通过杀死java进程(kill -9)来停止爬行 - 我尝试在bin目录中创建一个.STOP文件但是没有用,所以我用了kill。
现在每当我重新启动抓取时,我都可以从输出中看到它正在重新启动作业停止的位置。我用谷歌搜索并遇到停止hadoop的工作,但我的服务器上没有任何hadoop文件 - hadoop的唯一引用是apache nutch目录中的jar文件。
如何从一开始就重新开始抓取,而不是从上次停止抓取的位置开始?实际上我想开始新的爬行。
非常感谢
答案 0 :(得分:0)
要从头开始,只需指定其他抓取目录或删除现有抓取目录。
从种子列表中删除条目不会影响crawldb或段的内容。如果不从零重新开始删除域,您可以做的是向URL过滤器添加一个模式,以便在更新步骤期间从crawldb中删除URL,或者至少在生成步骤中不选择这些URL。