将grobid与tika和solr整合在一起

时间:2016-05-04 13:00:06

标签: solr apache-tika

我使用Solr索引期刊文章。使用开箱即用的配置,它将文档的文本编入索引,但我希望使用Grobid来提取作者,标题,附属关系等。我得到了进行服务并作为服务运行

我添加了

  

<str name="tika.config">/path/to/tika-config.xml</str>

到solrconfig.xml中的/ update / extract的requestHandler

tika-config看起来像:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
  <parsers>
    <parser class="org.apache.tika.parser.journal.JournalParser">
      <mime>application/pdf</mime>
    </parser>
  </parsers>
</properties>

我在尝试导入文档时遇到ClassNotFound异常,但无法确定在哪里设置类路径来修复它。

1 个答案:

答案 0 :(得分:0)

正如Solr用户列表中所提到的,最新版本的Solr(6.0.0)使用的是Tika(1.7)版本,该版本早于添加了grobid(在Tika 1.11中引入)permalink。要关注升级到Tika 1.13,请参阅SOLR-8981