应用错误收集

Jackrabbit弃用了SearchIndex textFilterClasses属性

时间：2012-01-21 18:23:38

标签： xml full-text-search repository deprecated jackrabbit

我正在配置Jackrabbit 2.3.6，我需要索引二进制文件（PDF， ODT）。所以我根据SearchIndex在repository.xml配置了SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor http://wiki.apache.org/jackrabbit/Search。但是当我将文件插入存储库并尝试全文时搜索，不返回任何结果。

然后我注意到日志中的警告：

SearchIndex

如何配置<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex"> <param name="path" value="${rep.home}/repository/index"/> <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/> <param name="supportHighlighting" value="true"/> </SearchIndex>索引二进制数据？现在我这样做，根据前面提到的警告被弃用并且不起作用：

{{1}}

感谢您的回复。

2 个答案:

答案 0 :(得分：1)

这是来自Jackrabbit用户邮件列表的Mark Herman的类似问题的答案：

我不是专家，但我知道JR使用Tika提取文本，而且它决定了如何基于jcr：mimeType属性。如果你不供应 mimetype，然后它将不知道如何提取它（虽然我不会建议作为一种做法）。我相信有一种方法可以为JR提供一个 Tika配置可能会给你你想要的东西。编辑：没有。它是硬编码的。

此外，您可以在存储库/工作区中指定索引配置 xml文件，您可以为索引的内容和方法设置一些规则 lucene的。

答案 1 :(得分：0)

您无需执行任何操作即可启用Tika解析功能。只要添加mimetype属性，它就会自动解析并索引文档的内容（只要特定版本的Tika支持该格式）。

希望这有助于某人。 Jackrabbit文档非常稀疏。 Apache Oak似乎设置为替换它的事实也无济于事。