从数据库索引的solr二进制文件内容

时间:2013-03-06 20:50:49

标签: solr


大家好,

我想知道是否有人可以帮我解决这个问题。我是solr的新手,我正在尝试索引二进制文件,如.pdf,.docx ...问题是我的solr配置索引文件但是当我运行查询时它不显示驻留在文件中的内容。


我默认使用schema.xml。
    
对于data-config.xml,我使用的是这种配置:

<dataConfig>
 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver"
                     url="jdbc:mysql://localhost:3306/db" 
                     user="Iam" batchSize="-1"/>
 <document>
     <entity name="data" datasource="mysql" recursive="true"
          query="select id, post, guid from posts'"
          >


        <field column="guid" name="content"/>
     </entity>
 </document>
</dataConfig>


在solrconfig.xml中:

 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">data-config.xml</str>
    </lst>
  </requestHandler>

<requestHandler name="/update/extract" 
                  startup="lazy"
                  class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="lowernames">true</str>
      <str name="uprefix">ignored_</str>
 </lst>
  </requestHandler>


我希望有人可以给我一些提示。谢谢你提前。

1 个答案:

答案 0 :(得分:0)

如果您正在使用DIH,您可以使用Tika集成来索引富文本内容文档,这些文档可以作为blob字段保存在文件系统或DB中。

Tika和DIH的整合已通过TikaEntityProcessor

提供给Solr

整合 - SOLR-1358
Blob处理 - SOLR-1737