Question

最近我学习Nutch，当我完成了Nutch和Solr的设置。我想尝试使用Nutch爬行并索引到Solr。索引作业时会发生一些错误。错误如下：

SolrIndexerJob: org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:


Expected content type application/octet-stream but got text/html;charset=iso-8859-1.


at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:455)
at org.apache.solr.client.solrj.impl.HttpSolrServer.request(HttpSolrServer.java:197)
at org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:117)
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:168)
at org.apache.solr.client.solrj.SolrServer.commit(SolrServer.java:146)
at org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit(SolrIndexWriter.java:146)
at org.apache.nutch.indexer.IndexWriters.commit(IndexWriters.java:124)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:186)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:202)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:211)

如果有人能给我一些建议，我将不胜感激。提前谢谢。

Answer 1

你需要指定Nutch一个集合或核心的Solr url，所以url http://localhost:8983/solr/collection1是有意义的。但是你应该使用Nutch的每个工具suggestions versions来使整个生态系统发挥作用。

Apache Avro 1.7.6
Apache Hadoop 1.2.1 and 2.5.2
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
Apache Cassandra 2.0.2
Apache Solr 4.10.3
MongoDB 2.6.X
Apache Accumlo 1.5.1
Apache Spark 1.4.1

我建议使用Solr-5.2.1作为最新版本4.10.3，并且我已将其用于我的项目中。我记得，在尝试使用Solr 6 +时遇到了与您相同的异常。

祝你好运！

将nutch 2.3.1与solr 6.4.1集成，索引作业有问题

1 个答案: