我正在使用Nutch2.x和hbase 0.90.6,我注意到的第一个奇怪的事情就是创建了它的网页'具有crawlId前缀的表,即如果我的crawlId是C1,那么它创建表作为' C1_webpage' ,我认为不应该。但它正在这样做和我的nutch工作[Inject - >生成 - >获取 - >解析 - > DBUpdate]运行正常。
现在我遇到的问题是,使用此设置和' C1_webpage'表,SolrIndexjob没有向Solr插入任何文档,因为我认为它在'网页'中寻找文档。总共有0行和实际数据的表格在' C1_webpage'中。
我该如何解决这个问题? 任何人都在使用带有hbase 0.90.6的nutch2.x并进行基于Id的爬行吗?
谢谢, 贝
答案 0 :(得分:0)
您可以通过crawlId运行下面的脚本运行solrIndexerJob。这将只索引C1_webpage表。
bin/nutch solrindex http://localhost:8983/solr -all -crawlId C1