我在Windows上安装并运行了SOLR。我正在关注SOLR website的快速入门教程。使用post.jar文件我试图索引/ solr / docs下列出的文档,我得到了以下错误 -
ERROR - 2016-05-11 16:35:16.772; [c:gettingstarted s:shard2 r:core_node1 x:gettingstarted_shard2_replica1] org.apache.solr.common.SolrException; org.apache.solr.common.SolrException: Invalid UTF-8 middle byte 0xe3 (at char #10, byte #-1)
我尝试一次索引一个文件,从pdf开始,然后尝试使用html。以下是我使用的命令和我看到的例外
java -Dc=gettingstarted -Dtype=application/pdf -jar example/exampledocs/post.jar scandocs/
ERROR - 2016-05-16 16:17:55.992; [c:gettingstarted s:shard2 r:core_node1 x:gettingstarted_shard2_replica1] org.apache.solr.common.SolrException; org.apache.solr.common.SolrException: Unsupported ContentType: application/pdf Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin]
java -Dc=gettingstarted -Dtype=text/html -jar example/exampledocs/post.jar scandocs/
ERROR - 2016-05-16 16:19:03.601; [c:gettingstarted s:shard2 r:core_node1 x:gettingstarted_shard2_replica1] org.apache.solr.common.SolrException; org.apache.solr.common.SolrException: Unsupported ContentType: text/html Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin]
/scandocs
fodler下的所有内容都是html文件。
好像我的SOLR实例似乎没有配置为读取html/pdf
文档。但该教程讨论的是索引一堆丰富的文档而不提及有关配置的任何内容。
如果有人能帮助我完成我需要的配置,我真的很感激。
答案 0 :(得分:0)
我自己也有类似的问题,我遇到的问题是你必须在windows中使用的post.jar工具只使用/ update处理程序(如MatsLindh所提到的),这对索引文档的方式非常有限制。只索引某些文件类型,需要某些格式化等。相反,我使用-Durl参数使其使用/更新/提取,这是有效的。命令看起来像这样:
java -Durl=http://localhost:8983/solr/gettingstarted/update/extract -jar example\exampledocs\post.jar "C:\documents to index"