Apache Solr DataImportHandler失败尝试索引

时间:2016-11-13 14:52:51

标签: java xml solr lucene

我正在尝试使用他们的DataImportHandler将一些xml文件索引到Solr 6.2.1中。

为此,我已将所需的导入和此RequestHandler添加到solrconfig.xml中:

  <lib dir="${solr.install.dir:../../../..}/contrib/dataimporthandler/lib/" regex=".*\.jar" />
  <lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

  <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler" startup="lazy">
    <lst name="default">
        <str name="config">data-config.xml</str>
    </lst>
  </requestHandler>

然后我编写了data-config.xml并将其放在与solrconfig.xml相同的路径中:

<dataConfig>
    <dataSource type="FileDataSource" encoding="UTF-8"/>
    <document>
        <entity name="pickupdir"
                processor="FileListEntityProcessor"
                dataSource="null"
                baseDir="/vagrant/TREC8all/Adhoc/"
                recursive="true"
                fileName="^[\w\d-]+\.xml$" />
        <entity name="trec8_simple"
                processor="XPathEntityProcessor"
                stream="true"
                datasource="pickupdir"
                url="${pickupdir.fileAbsolutePath}"
                forEach="/DOCS/DOC">
            <field column="id" xpath="/DOCS/DOC/DOCNO"/>
            <field column="header" xpath="/DOCS/DOC/HEADER"/>
            <field column="text" xpath="/DOCS/DOC/TEXT"/>
        </entity>
    </document>
</dataConfig>

这应该使ImportHandler以递归方式遍历目录中的所有xml文件,并根据xpath索引它们。

当我像这样调用requestHandler :(我在一个流浪盒而不是在本地运行solr)

http://192.168.155.156:8983/solr/trec8/dataimport?command=full-import&entity=trec8_simple

我在solr.log中收到此异常:

ERROR (Thread-14) [   x:trec8] o.a.s.h.d.DataImporter Full Import failed:java.lang.NullPointerException
        at org.apache.solr.handler.dataimport.DataImporter.createPropertyWriter(DataImporter.java:325)
        at org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:412)
        at org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:475)
        at org.apache.solr.handler.dataimport.DataImporter.lambda$runAsync$0(DataImporter.java:458)
        at java.lang.Thread.run(Thread.java:745)

我假设这应该是DataImportHandler的源:

https://github.com/sudarshang/lucene-solr/blob/master/solr/contrib/dataimporthandler/src/java/org/apache/solr/handler/dataimport/DataImporter.java

我无法弄清楚导致此异常的原因及其含义。如果有人可以帮助我,那会很好。谢谢!

编辑: 我认为这与DataImportHandler有关,因为它无法找到data-config.xml。当我删除它将抛出完全相同的异常

1 个答案:

答案 0 :(得分:0)

好的,我发现了这个问题! 问题在于solrconfig,

<lst name="default">
    <str name="config">data-config.xml</str>
</lst>

应该是

<lst name="defaults">
    <str name="config">data-config.xml</str>
</lst>