JackRabbit:不推荐使用textFilterClasses。如何指定提取器?

时间:2012-04-04 13:31:52

标签: lucene jackrabbit jcr

我的 Jackrabbit 2.4 表示, SearchIndex 元素的 textFilterClasses 参数已弃用并被忽略。当我一起删除 textFilterClasses 参数时,它会对Pdf,Rtf - 所有内容进行索引。

当我没有指定没有提取器时,它如何知道它应该索引哪些二进制文件?

API说它已被弃用,但没有提供任何替代方案。

谢谢!

1 个答案:

答案 0 :(得分:3)

使用Jackrabbit 2.x Apache Tika作为默认的二进制解析器引入。默认情况下,Jackrabbit附带一个默认的tika-config.xml文件,其中包含要解析和提取的mime-types的配置。

在Jackrabbit 2.4中,您应该能够在repository.xml中设置tika-config.xml的位置。

搜索索引配置中的正确参数应类似于:

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
  <param name="path" value="${wsp.home}/index"/>
  <param name="supportHighlighting" value="true"/>
  <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>