我正在运行Solr 4.8.1并使用SimplePostTool(示例\ exampledocs目录中的post.jar)进行索引。
我可以成功索引xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx文件但是在尝试索引其他文件类型时(.txt,7z .rar .EAP .sql .zip。 avi)我给出了错误:
" SimplePostTool:警告Solr返回错误#400错误请求 SimplePostTool:警告:读取响应时出现IOException:java.io.IOException:服务器返回HTTP响应码:400表示URL:/"
Solr还告诉我,它已经成功索引了我已经包含的任何文本文件,但那些"已编入索引"文件不会显示在我为solr设置的浏览器中,也不会显示在solaritas中,即默认的solr浏览器。
有没有办法将上述文件索引到solr? - 即使上下文无法为某些(例如.avi)编制索引,也可以将元数据编入索引?如果是这样,可以通过编辑SimplePostTool来完成,还是需要其他东西?
编辑:自写作以来,我发现这个问题SOLR index and extract .sh and .sql files(非常相似)建议在SimplePostTool.java中编辑MIME地图,但是我无法在SimplePostTool.java的任何地方找到推荐的代码部分!我在哪里可以找到这段代码?有更简单的方法吗?答案 0 :(得分:0)
我会使用Solr ExtractingUpdateRequestHandler,也称为Solr Cell:https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika
来自文档:
Solr使用Apache Tika项目中的代码来提供框架 包含许多不同的文件格式解析器,如Apache PDFBox 和Apache POI进入Solr本身。使用这个框架,Solr's ExtractingRequestHandler可以使用Tika来支持上传二进制文件 文件,包括流行格式的文件,如Word和PDF,用于 数据提取和索引。
它是Apache Solr项目的一部分,支持各种文件格式,包括视频,音频,压缩文件,文本文件等。可以找到可以加载和解析的文件类型的概述在这里:http://tika.apache.org/1.5/formats.html
有关开始使用它的更多信息:https://wiki.apache.org/solr/ExtractingRequestHandler