索引和访问solr中的odt文件

时间:2014-02-27 12:27:32

标签: search solr indexing schema odt

如何在solr_home目录中存储的odt文件中发布,索引和搜索内容?

我尝试了解并应用下面提到的页面,并在模式中包含了一个正文字段:

Indexing text and html files

Simple Post Tool -Confluence

resourcename字段包含文件位置,但content字段为空。 但我仍然无法搜索文件内容,即使它显示文件已编入索引并且提交了更改。 是否有针对此类要求的端到端文档。 我在linux机器上使用solr和Tomcat。 我是solr的新手,可能会错过上面没有提到的细节。

2 个答案:

答案 0 :(得分:0)

Apache Tika是必需的。在Apache Tika Download

找到它

答案 1 :(得分:0)

使用Apache tika提取内容并将其发送给SOLR

Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");

String content = tika.parseToString(fileInputStream, metadata);

或者您也可以使用ExtractingRequestHandler