配置Apache Tika

时间:2014-01-30 09:04:44

标签: apache solr apache-tika

本文档部分指出可以使用专用配置文件配置Apache Tika:https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika

<str name="tika.config">/my/path/to/tika.config</str>

显而易见的问题是 - 我在哪里可以找到样本tika.config以及如何修改它的说明?

我的目标是什么? 我想将Tika配置为不解析媒体文件内容

1 个答案:

答案 0 :(得分:0)

您必须在solrconfig.xml文件中添加这些行

<lib dir="../../../../contrib/extraction/lib/" regex="tika-core-\d.*\.jar" />
  <lib dir="../../../../contrib/extraction/lib/" regex="tika-parsers-\d.*\.jar" />

添加这些行

**<requestHandler name="/update/extract"
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="fmap.meta">ignored_</str>
      <str name="fmap.content">_text_</str>
      <str name="capture">body</str>
    </lst>
      <str name="tika.config">**html-config.xml**</str>
  </requestHandler>**

html-config.xml文件必须位于conf目录中并包含从此处查看的内容https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/html/tika-config.xml