我正在配置Jackrabbit 2.3.6
,我需要索引二进制文件(PDF,
ODT)。所以我根据SearchIndex
在repository.xml
配置了SearchIndex.java:2087 The textFilterClasses configuration parameter has
been deprecated, and the configured value will be ignored: org.apache.jackrabbit.extractor.PlainTextExtractor,org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor
http://wiki.apache.org/jackrabbit/Search。但是当我将文件插入存储库并尝试全文时
搜索,不返回任何结果。
然后我注意到日志中的警告:
SearchIndex
如何配置<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
<param name="path" value="${rep.home}/repository/index"/>
<param name="textFilterClasses"value="org.apache.jackrabbit.extractor.PdfTextExtractor,org.apache.jackrabbit.extractor.OpenOfficeTextExtractor"/>
<param name="supportHighlighting" value="true"/>
</SearchIndex>
索引二进制数据?现在我
这样做,根据前面提到的警告被弃用并且不起作用:
{{1}}
感谢您的回复。
答案 0 :(得分:1)
这是来自Jackrabbit用户邮件列表的Mark Herman的类似问题的答案:
我不是专家,但我知道JR使用Tika提取文本,而且 它决定了如何基于jcr:mimeType属性。如果你不供应 mimetype,然后它将不知道如何提取它(虽然我不会 建议作为一种做法)。我相信有一种方法可以为JR提供一个 Tika配置可能会给你你想要的东西。编辑:没有。它是硬编码的。
此外,您可以在存储库/工作区中指定索引配置 xml文件,您可以为索引的内容和方法设置一些规则 lucene的。
答案 1 :(得分:0)
您无需执行任何操作即可启用Tika解析功能。只要添加mimetype属性,它就会自动解析并索引文档的内容(只要特定版本的Tika支持该格式)。
希望这有助于某人。 Jackrabbit文档非常稀疏。 Apache Oak似乎设置为替换它的事实也无济于事。