Solr Nutch在Cloudera上整合

时间:2014-10-18 01:06:15

标签: solr nutch cloudera

有没有人能够在Cloudera集群上使用nutch和solr一起工作?

通常的说法是从nutch获取schema.xml并替换solr中的原始值。之后

/opt/apache-nutch-1.9/bin/crawl urls crawl http://localhost:8983/solr 2 -depth 3 -topN 100

将索引solr中的已爬网页面。但是,在Cloudera集群中,schema.xml位于zookeeper中。

在用来自nutch的那个替换zookeeper副本之后,solr集群不再有效。群集中的两个solr服务器中的一个在重新启动后立即崩溃。

我在网上找不到任何说明。有人知道吗?

0 个答案:

没有答案