Nutch抓取命令

时间:2013-10-25 14:07:44

标签: solr web-crawler nutch

对于Nutch 2.2.1,我知道两个抓取命令 - bin / nutch(一步一步),bin / crawl(一体化)

我知道如何为bin/crawl命令指定抓取ID。同样,如何为bin/nutch命令指定爬网ID?

我问的原因是,我使用all-in-one crawl command "bin/crawl"指定了一个抓取ID运行了一个大型抓取工作,它在Solr中进行第9次抓取迭代索引时断开了。现在,我只想为那个中断的第9次迭代运行一步"bin/nutch solrindex"命令来完成solr索引。我应该如何在“bin/nutch solrindex”命令中指定crawlID?语法是什么?

我将所有抓取数据存储在HBase表“webpage_test”

1 个答案:

答案 0 :(得分:1)

您可以运行bin / nutch solrindex并在参数中传递crawl和segments文件夹。

Nutch将索引所有文档但不会创建重复项,因为它将使用ID字段来确定它们是否已被插入。