支持.txt& Solr SimplePostTool的其他文件

时间:2014-07-01 13:57:40

标签: java apache solr lucene indexing

我正在运行Solr 4.8.1并使用SimplePostTool(示例\ exampledocs目录中的post.jar)进行索引。

我可以成功索引xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx文件但是在尝试索引其他文件类型时(.txt,7z .rar .EAP .sql .zip。 avi)我给出了错误:

" SimplePostTool:警告Solr返回错误#400错误请求  SimplePostTool:警告:读取响应时出现IOException:java.io.IOException:服务器返回HTTP响应码:400表示URL:/"

Solr还告诉我,它已经成功索引了我已经包含的任何文本文件,但那些"已编入索引"文件不会显示在我为solr设置的浏览器中,也不会显示在solaritas中,即默认的solr浏览器。

有没有办法将上述文件索引到solr? - 即使上下文无法为某些(例如.avi)编制索引,也可以将元数据编入索引?如果是这样,可以通过编辑SimplePostTool来完成,还是需要其他东西?

编辑:自写作以来,我发现这个问题SOLR index and extract .sh and .sql files(非常相似)建议在SimplePostTool.java中编辑MIME地图,但是我无法在SimplePostTool.java的任何地方找到推荐的代码部分!我在哪里可以找到这段代码?有更简单的方法吗?

1 个答案:

答案 0 :(得分:0)

我会使用Solr ExtractingUpdateRequestHandler,也称为Solr Cell:https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

来自文档:

  

Solr使用Apache Tika项目中的代码来提供框架   包含许多不同的文件格式解析器,如Apache PDFBox   和Apache POI进入Solr本身。使用这个框架,Solr's   ExtractingRequestHandler可以使用Tika来支持上传二进制文件   文件,包括流行格式的文件,如Word和PDF,用于   数据提取和索引。

它是Apache Solr项目的一部分,支持各种文件格式,包括视频,音频,压缩文件,文本文件等。可以找到可以加载和解析的文件类型的概述在这里:http://tika.apache.org/1.5/formats.html

有关开始使用它的更多信息:https://wiki.apache.org/solr/ExtractingRequestHandler