有没有人能够在Cloudera集群上使用nutch和solr一起工作?
通常的说法是从nutch获取schema.xml
并替换solr中的原始值。之后
/opt/apache-nutch-1.9/bin/crawl urls crawl http://localhost:8983/solr 2 -depth 3 -topN 100
将索引solr中的已爬网页面。但是,在Cloudera集群中,schema.xml
位于zookeeper中。
在用来自nutch的那个替换zookeeper副本之后,solr集群不再有效。群集中的两个solr服务器中的一个在重新启动后立即崩溃。
我在网上找不到任何说明。有人知道吗?