Question

我正在使用Nutch2.x和hbase 0.90.6，我注意到的第一个奇怪的事情就是创建了它的网页＆＃39;具有crawlId前缀的表，即如果我的crawlId是C1，那么它创建表作为＆＃39; C1_webpage＆＃39; ，我认为不应该。但它正在这样做和我的nutch工作[Inject - ＆gt;生成 - ＆gt;获取 - ＆gt;解析 - ＆gt; DBUpdate]运行正常。

现在我遇到的问题是，使用此设置和＆＃39; C1_webpage＆＃39;表，SolrIndexjob没有向Solr插入任何文档，因为我认为它在＆＃39;网页＆＃39;中寻找文档。总共有0行和实际数据的表格在＆＃39; C1_webpage＆＃39;中。

我该如何解决这个问题？任何人都在使用带有hbase 0.90.6的nutch2.x并进行基于Id的爬行吗？

谢谢，贝

Answer 1

您可以通过crawlId运行下面的脚本运行solrIndexerJob。这将只索引C1_webpage表。

bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1

基于Id的Nutch2.x与HBase一起爬行 - ＆gt; SolrIndexerJob无法正常工作

1 个答案: