Jackrabbit弃用了SearchIndex textFilterClasses属性

时间:2012-01-21 18:23:38

标签: xml full-text-search repository deprecated jackrabbit

我正在配置Jackrabbit 2.3.6,我需要索引二进制文件(PDF, ODT)。所以我根据SearchIndexrepository.xml配置了SearchIndex.java:2087 The textFilterClasses configuration parameter has been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor http://wiki.apache.org/jackrabbit/Search。但是当我将文件插入存储库并尝试全文时 搜索,不返回任何结果。

然后我注意到日志中的警告:

SearchIndex

如何配置<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex"> <param name="path" value="${rep.home}/repository/index"/> <param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/> <param name="supportHighlighting" value="true"/> </SearchIndex> 索引二进制数据?现在我 这样做,根据前面提到的警告被弃用并且不起作用:

{{1}}

感谢您的回复。

2 个答案:

答案 0 :(得分:1)

这是来自Jackrabbit用户邮件列表的Mark Herman的类似问题的答案:

我不是专家,但我知道JR使用Tika提取文本,而且 它决定了如何基于jcr:mimeType属性。如果你不供应 mimetype,然后它将不知道如何提取它(虽然我不会 建议作为一种做法)。我相信有一种方法可以为JR提供一个 Tika配置可能会给你你想要的东西。编辑:没有。它是硬编码的。

此外,您可以在存储库/工作区中指定索引配置 xml文件,您可以为索引的内容和方法设置一些规则 lucene的。

答案 1 :(得分:0)

您无需执行任何操作即可启用Tika解析功能。只要添加mimetype属性,它就会自动解析并索引文档的内容(只要特定版本的Tika支持该格式)。

希望这有助于某人。 Jackrabbit文档非常稀疏。 Apache Oak似乎设置为替换它的事实也无济于事。