应用错误收集

Nutch抓取命令

时间：2013-10-25 14:07:44

标签： solr web-crawler nutch

对于Nutch 2.2.1，我知道两个抓取命令 - bin / nutch（一步一步），bin / crawl（一体化）

我知道如何为bin/crawl命令指定抓取ID。同样，如何为bin/nutch命令指定爬网ID？

我问的原因是，我使用all-in-one crawl command "bin/crawl"指定了一个抓取ID运行了一个大型抓取工作，它在Solr中进行第9次抓取迭代索引时断开了。现在，我只想为那个中断的第9次迭代运行一步"bin/nutch solrindex"命令来完成solr索引。我应该如何在“bin/nutch solrindex”命令中指定crawlID？语法是什么？

我将所有抓取数据存储在HBase表“webpage_test”

中

1 个答案:

答案 0 :(得分：1)

您可以运行bin / nutch solrindex并在参数中传递crawl和segments文件夹。

Nutch将索引所有文档但不会创建重复项，因为它将使用ID字段来确定它们是否已被插入。

如何让nutch履带爬行
每次在nutch中重新爬行时抓取1000个网址
荷兰爬行路径
如何在Nutch中仅抓取HTML？
Nutch抓取命令
Nutch 1.9命令抓取只获取一个级别
关于Nutch抓取经过身份验证的网站
Nutch Crawl - 删除每个抓取影响的细分
将hadoop配置传递给Nutch抓取命令
无法使用php exec函数执行nutch crawl命令

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？