我使用Solr索引期刊文章。使用开箱即用的配置,它将文档的文本编入索引,但我希望使用Grobid来提取作者,标题,附属关系等。我得到了进行服务并作为服务运行
我添加了
<str name="tika.config">/path/to/tika-config.xml</str>
到solrconfig.xml中的/ update / extract的requestHandler
tika-config看起来像:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>
我在尝试导入文档时遇到ClassNotFound异常,但无法确定在哪里设置类路径来修复它。