Solr - 使用FileListEntityProcessor实现PDF文件的Delta-Import

时间:2017-12-12 11:46:01

标签: pdf solr solrnet dataimporthandler

Solr version :: 6.6.1

我正在使用solr来索引PDF文件,并且工作正常 预期。现在我需要执行delta-import选项 PDF文件。最近添加到文件夹中的文件只应在data-import-handler操作期间处理。

我无法找到实现delta-import的示例 的 FileListEntityProcessor

请建议。

data-config.xml 文件与此类似。

<dataConfig>
  <dataSource type="BinFileDataSource"/>
  <document>
    <entity name="K1FileEntity" processor="FileListEntityProcessor"
dataSource="null"
            recursive = "true"
            baseDir="\\CLD02\RemoteDepot"
            fileName=".*pdf" rootEntity="false">

            <field column="file" name="id"/>
            <!--<field column="fileAbsolutePath" name="path" />
            <field column="fileSize" name="size" />-->
            <field column="fileLastModified" name="lastmodified" />

              <entity name="pdf" processor="TikaEntityProcessor"
onError="skip"
                      url="${K1FileEntity.fileAbsolutePath}" format="text">

                <field column="title" name="title" meta="true"/>
                <field column="dc:format" name="format" meta="true"/>
                <field column="text" name="text"/>

              </entity>
    </entity>
  </document>
</dataConfig> 

1 个答案:

答案 0 :(得分:1)

如上所述in the docs

  

delta-import

     

用于增量导入和更改检测。只有   SqlEntityProcessor支持delta导入。

所以你需要:

  • 转移到使用一些java代码(使用Solrj)编制索引并滚动您自己的delta import infra
  • 或为FileListEntityProcessor实现所有delta内容(并希望将其推入Solr),您可以使用SqlEntityProcessor代码作为指南。