Solr 4.7.2,能够导入大型XML,在使用FileListEntityProcessor导入时出现问题

时间:2014-05-29 07:01:25

标签: xml solr dataimporthandler

我能够使用数据导入处理程序导入一个大的XML文件,然后尝试使用FileListEntityProcessor导入多个文件,遵循solr wiki提供的指令。 问题是,它正在解析完整文件(所花费的时间与单个文件导入相同;目录中只有一个* .xml文件),没有显示任何错误,并显示成功消息。但不创建索引(如果我进行搜索,则不显示结果)。 我猜想xpath等有些问题,所以我做了检查。 任何线索/解决方案都会帮助我。

提前致谢!

Data-Config xml

<dataConfig>
    <dataSource type="FileDataSource" encoding="UTF-8" />
    <document>
<entity
        name="pickupdir"
        processor="FileListEntityProcessor"
        rootEntity="false"
        dataSource="null"
        fileName="^.*\.xml$"
        baseDir="/media/200GB"
        recursive="false"
    >
<entity 
        name="page"
        processor="XPathEntityProcessor"
      transformer="DateFormatTransformer,TemplateTransformer,RegexTransformer,LogTransformer"
        url="${pickupdir.fileAbsolutePath}"
        forEach="/rootnode/page/" >
    <field column="id"        xpath="/rootnode/page/id" />
        <field column="title"     xpath="/rootnode/page/title" />
        <field column="revision"  xpath="/rootnode/page/revision/id" />
        <field column="user"      xpath="/rootnode/page/revision/contributor/username" />
        <field column="userId"    xpath="/rootnode/page/revision/contributor/id" />
        <field column="text"      xpath="/rootnode/page/revision/text" />
        <field column="timestamp" xpath="/rootnode/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
        <field column="$skipDoc"  regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
</entity>
</entity>
    </document>
    </dataConfig>

0 个答案:

没有答案