nutch 1.2 solr 3.1集成问题

时间:2013-07-08 11:49:03

标签: solr nutch java.lang.class

我使用NUTCH 1.2成功抓取了一个网站。现在我想将它与solr 3.1集成。问题是当我发出命令$ bin / nutch solrindex localhost:8080 / solr / crawl / crawldb crawl / linkdb cra wl / segments / *时发生错误。我正在附上我的nutch日志

请帮我解决这个问题

错误请求

request:// localhost:8080 / solr / update?wt = javabin& version = 2     在org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436)     在org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245)     在org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105)     在org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:49)     在org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75)     at org.apache.nutch.indexer.IndexerOutputFormat $ 1.close(IndexerOutputFormat.java:48)     在org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)     在org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)     在org.apache.hadoop.mapred.LocalJobRunner $ Job.run(LocalJobRunner.java:216) 2013-07-08 17:38:47,577 ERROR solr.SolrIndexer - java.io.IOException:作业失败!

1 个答案:

答案 0 :(得分:0)

您需要将以下Apache Commons库添加到类路径中:commons-httpclient.jar(您可以将它放在nutch安装所使用的其他JAR所在的文件夹中)。

您可以在http://hc.apache.org/httpcomponents-client-ga/

找到当前版本的HttpClient

请注意,您的Nutch版本可能使用较旧版本的HttpClient,而当前版本的HttpClient与旧版本不兼容。在这种情况下,您需要下载旧版本的HttpClient,并在您的库中包含旧版本。