本文档部分指出可以使用专用配置文件配置Apache Tika:https://cwiki.apache.org/confluence/display/solr/Uploading+Data+with+Solr+Cell+using+Apache+Tika
<str name="tika.config">/my/path/to/tika.config</str>
显而易见的问题是 - 我在哪里可以找到样本tika.config以及如何修改它的说明?
我的目标是什么? 我想将Tika配置为不解析媒体文件内容
答案 0 :(得分:0)
您必须在solrconfig.xml文件中添加这些行
<lib dir="../../../../contrib/extraction/lib/" regex="tika-core-\d.*\.jar" />
<lib dir="../../../../contrib/extraction/lib/" regex="tika-parsers-\d.*\.jar" />
添加这些行
**<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="fmap.meta">ignored_</str>
<str name="fmap.content">_text_</str>
<str name="capture">body</str>
</lst>
<str name="tika.config">**html-config.xml**</str>
</requestHandler>**
html-config.xml文件必须位于conf目录中并包含从此处查看的内容https://github.com/apache/tika/blob/master/tika-parsers/src/test/resources/org/apache/tika/parser/html/tika-config.xml