Question

大家好，

我想知道是否有人可以帮我解决这个问题。我是solr的新手，我正在尝试索引二进制文件，如.pdf，.docx ...问题是我的solr配置索引文件但是当我运行查询时它不显示驻留在文件中的内容。

我默认使用schema.xml。

对于data-config.xml，我使用的是这种配置：

<dataConfig>
 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
                     url="jdbc:mysql://localhost:3306/db" 
                     user="Iam" batchSize="-1"/>
 <document>
     <entity name="data" datasource="mysql" recursive="true"
          query="select id, post, guid from posts'"
          >


        <field column="guid" name="content"/>
     </entity>
 </document>
</dataConfig>

在solrconfig.xml中：

 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
  </requestHandler>

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>
 </lst>
  </requestHandler>

我希望有人可以给我一些提示。谢谢你提前。

Answer 1

如果您正在使用DIH，您可以使用Tika集成来索引富文本内容文档，这些文档可以作为blob字段保存在文件系统或DB中。

Tika和DIH的整合已通过TikaEntityProcessor

提供给Solr

整合 - SOLR-1358
Blob处理 - SOLR-1737

从数据库索引的solr二进制文件内容

1 个答案: