我使用NUTCH 1.2成功抓取了一个网站。现在我想将它与solr 3.1集成。问题是当我发出命令$ bin / nutch solrindex localhost:8080 / solr / crawl / crawldb crawl / linkdb cra wl / segments / *时发生错误。我正在附上我的nutch日志
请帮我解决这个问题
错误请求
request:// localhost:8080 / solr / update?wt = javabin& version = 2 在org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436) 在org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245) 在org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105) 在org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:49) 在org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75) at org.apache.nutch.indexer.IndexerOutputFormat $ 1.close(IndexerOutputFormat.java:48) 在org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) 在org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) 在org.apache.hadoop.mapred.LocalJobRunner $ Job.run(LocalJobRunner.java:216) 2013-07-08 17:38:47,577 ERROR solr.SolrIndexer - java.io.IOException:作业失败!
答案 0 :(得分:0)
您需要将以下Apache Commons库添加到类路径中:commons-httpclient.jar
(您可以将它放在nutch安装所使用的其他JAR所在的文件夹中)。
您可以在http://hc.apache.org/httpcomponents-client-ga/
找到当前版本的HttpClient请注意,您的Nutch版本可能使用较旧版本的HttpClient,而当前版本的HttpClient与旧版本不兼容。在这种情况下,您需要下载旧版本的HttpClient,并在您的库中包含旧版本。