Apache Solr:如何从另一台服务器访问和索引文件

时间:2017-11-09 09:19:52

标签: solr lucene

Solr version :: 6.6.1

我是Apache Solr的新手,目前正在探索如何使用此技术搜索PDF文件。

https://lucene.apache.org/solr/guide/6_6/uploading-structured-data-store-data-with-the-data-import-handler.html#the-tikaentityprocessor

我能够使用“BinFileDataSource”为同一服务器内的PDF文件索引PDF文件,如下例所示。

现在我想知道是否有办法更改指向不同服务器下的文件夹的baseDir。

请提供一个示例,以便从其他服务器访问PDF文件。我将如何在baseDir属性中编写路径。

<dataConfig>
  <dataSource type="BinFileDataSource"/> <!--Local filesystem-->
  <document>
    <entity name="K2FileEntity" processor="FileListEntityProcessor" dataSource="null"
            recursive = "true"
            baseDir="C:/solr-6.6.1/server/solr/core_K2_Depot/Depot" fileName=".*pdf" rootEntity="false">

            <field column="file" name="id"/>
            <field column="fileLastModified" name="lastmodified" />

              <entity name="pdf" processor="TikaEntityProcessor" onError="skip"
                      url="${K2FileEntity.fileAbsolutePath}" format="text">

                <field column="title" name="title" meta="true"/>
                <field column="dc:format" name="format" meta="true"/>
                <field column="text" name="text"/>

              </entity>
    </entity>
  </document>
</dataConfig>

1 个答案:

答案 0 :(得分:1)

我终于从solr-user邮件列表中找到了答案。

只需将baseDir更改为另一台服务器上的文件夹(SMB路径直接工作):

baseDir="\\CLDServer2\RemoteK2Depot"