我正在尝试使用TikaEntityProcessor来索引.html文件内容。不知怎的,我无法正确地得到它。我检查了错误日志,我收到了以下错误。
SEVERE: Full Import failed:java.lang.RuntimeException:org.apache.solr.handler.dataimport.DataImportHandlerException: Unable to load EntityProcessor implementation for entity:tika-test Processing Document # 1
at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:273)
at org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:382)
at org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:448)
at org.apache.solr.handler.dataimport.DataImporter$1.run(DataImporter.java:429)
Caused by: org.apache.solr.handler.dataimport.DataImportHandlerException: Unable to load EntityProcessor implementation for entity:tika-test Processing Document # 1
at org.apache.solr.handler.dataimport.DataImportHandlerException.wrapAndThrow(DataImportHandlerException.java:71)
at org.apache.solr.handler.dataimport.DocBuilder.getEntityProcessorWrapper(DocBuilder.java:697)
at org.apache.solr.handler.dataimport.DocBuilder.getEntityProcessorWrapper(DocBuilder.java:703)
at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:215)
... 3 more
Caused by: java.lang.ClassNotFoundException: Unable to load TikaEntityProcessor or org.apache.solr.handler.dataimport.TikaEntityProcessor
at org.apache.solr.handler.dataimport.DocBuilder.loadClass(DocBuilder.java:899)
at org.apache.solr.handler.dataimport.DocBuilder.getEntityProcessorWrapper(DocBuilder.java:694)
... 5 more
Caused by: org.apache.solr.common.SolrException: Error loading class 'TikaEntityProcessor'
at org.apache.solr.core.SolrResourceLoader.findClass(SolrResourceLoader.java:436)
at org.apache.solr.handler.dataimport.DocBuilder.loadClass(DocBuilder.java:889)
... 6 more
Caused by: java.lang.ClassNotFoundException: TikaEntityProcessor
at java.net.URLClassLoader$1.run(URLClassLoader.java:217)
我的data-config.xml文件如下:
<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
<entity name="f" processor="FileListEntityProcessor" baseDir="path/to/basedir/" fileName=".*html" recursive="true" rootEntity="true" dataSource="null">
<entity name="tika-test" processor="TikaEntityProcessor" url="path/tohtml/files/" format="text" onError="skip">
<field column="product_id" name="product_id" meta="true"/>
<field column="type" name="type" meta="true"/>
<field column="title" name="title" meta="true"/>
</entity>
</entity>
</document>
</dataConfig>
我在solrconfig.xml
中添加了以下代码<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">/path/to/data-config.xml</str>
</lst>
我保留了默认的schema.xml文件,并在该文件中添加了以下代码。
<field name="product_id" type="string" indexed="true" stored="true"/>
<field name="title" type="string" indexed="true" stored="true"/>
<field name="type" type="string" indexed="true" stored="true"/>
任何人都可以告诉我,我在这里错过了什么?或者为什么我得到错误?以及它的解决方案。
答案 0 :(得分:1)
您是否在solrconfig.xml中添加了 lib 指令以确保加载了tika库?你需要(我相信):
<lib dir="${user.dir}/../dist/" regex="solr-cell-\d.*\.jar" />
<lib dir="${user.dir}/../contrib/extraction/lib" regex=".*\.jar" />
如果您使用的是Solr 4,而不是Solr 4.1,您可能需要说apache-solr-cell ....而不仅仅是solr-cell ......
答案 1 :(得分:1)
TikaEntityProcessor在dataimporthandler-extras jar文件中可用
您可以使用apache-solr-dataimporthandler-.*\.jar
模式加载文件。
答案 2 :(得分:1)
您需要在dist文件夹中添加apache-solr-dataimporthandler-4.0,apache-solr-dataimporthandler-extras-4.0和apache-solr-cell-4.o的jar(或路径)以及相应的文件在contrib文件夹中。
这就是我的问题如何解决。