为什么在云模式下使用Apache Solr进行Apache Nutch清理作业会失败

时间:2019-01-11 07:01:19

标签: java solr centos nutch

我试图在云模式下使用Apache Solr 7.6.0设置Apache Nutch 1.15。在开始执行清理作业(def foo(): try: print("a = ", a) return # break out of loop except UnboundLocalError: print("no variable a. defining one now.") a = 3 foo() # try again foo() )之前,爬网脚本(nutch/bin/crawl)可以正常工作。然后它会无故失败(CleaningJob.java)。

我已经成功设置了相同版本的Nutch和Solr,但在独立模式下使用了Sorl。

我正在使用以下命令以云模式启动Solr:

reason: NA

我正在使用以下命令开始抓取过程:

solr/bin/solr start -cloud -p 8983 -s "solr/cloud/node1/solr"
solr/bin/solr start -cloud -p 7574 -s "solr/cloud/node2/solr" -z localhost:9983

在清洁作业上失败。 :

nutch/bin/crawl -i -s nutch/urls/ --num-threads 400 --hostdbupdate --hostdbgenerate --num-tasks 16 --sitemaps-from-hostdb once niche-crawl 8

例外:

nutch/bin/nutch clean niche-crawl/crawldb

这是我No exchange was configured. The documents will be routed to all index writers. SolrIndexer: deleting 1000/1000 documents SolrIndexer: deleting 1000/1000 documents ERROR CleaningJob: java.lang.RuntimeException: CleaningJob did not succeed, job status:FAILED, reason: NA at org.apache.nutch.indexer.CleaningJob.delete(CleaningJob.java:169) at org.apache.nutch.indexer.CleaningJob.run(CleaningJob.java:197) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.nutch.indexer.CleaningJob.main(CleaningJob.java:208) 在云模式下的Solr:

index-writers.xml

1 个答案:

答案 0 :(得分:0)

尝试升级到Nutch 1.16版。这听起来像一个已知的错误https://issues.apache.org/jira/browse/NUTCH-2731,该错误已在1.16中修复,请参见https://apache.org/dist/nutch/1.16/CHANGES.txt