基于Id的Nutch2.x与HBase一起爬行 - > SolrIndexerJob无法正常工作

时间:2013-06-25 08:43:56

标签: solr hbase nutch

我正在使用Nutch2.x和hbase 0.90.6,我注意到的第一个奇怪的事情就是创建了它的网页'具有crawlId前缀的表,即如果我的crawlId是C1,那么它创建表作为' C1_webpage' ,我认为不应该。但它正在这样做和我的nutch工作[Inject - >生成 - >获取 - >解析 - > DBUpdate]运行正常。

现在我遇到的问题是,使用此设置和' C1_webpage'表,SolrIndexjob没有向Solr插入任何文档,因为我认为它在'网页'中寻找文档。总共有0行和实际数据的表格在' C1_webpage'中。

我该如何解决这个问题? 任何人都在使用带有hbase 0.90.6的nutch2.x并进行基于Id的爬行吗?

谢谢, 贝

1 个答案:

答案 0 :(得分:0)

您可以通过crawlId运行下面的脚本运行solrIndexerJob。这将只索引C1_webpage表。

bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1