使用Solr配置Tika

时间:2013-07-12 19:23:21

标签: solr apache-tika

我希望将Rich类型文档(Pdf,Doc,rtf,txt)编入索尔。我发现Tika是一种解决方案。我在网上咆哮,但没有发现任何文档/链接,使其与ExtractingRequestHandler一起使用。

任何人都可以提供一步一步的方法来配置Tika和ExtractingRequestHandler。

提前致谢:)

1 个答案:

答案 0 :(得分:2)

检查ExtractingRequestHandler是否将Solr与Tika整合 Solr提供内置的tika.config,除非覆盖配置,否则不需要定义它 您可以使用solrconfig.xml

中定义的默认配置
<!-- Solr Cell Update Request Handler

   http://wiki.apache.org/solr/ExtractingRequestHandler 

-->
<requestHandler name="/update/extract" 
              startup="lazy"
              class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
  <str name="lowernames">true</str>
  <str name="uprefix">ignored_</str>

  <!-- capture link hrefs but ignore div attributes -->
  <str name="captureAttr">true</str>
  <str name="fmap.a">links</str>
  <str name="fmap.div">ignored_</str>
</lst>
</requestHandler>

您可以使用这些命令将文件索引以使用其他元数据进行索引。

curl "http://localhost:8983/solr/update/extract?literal.id=2&literal.title=Test&commit=true&fmap.content=text" -F "myfile=@1.pdf"

默认情况下,文件的内容会复制到内容字段并复制到文本,您可以覆盖设置。