无法在SOLR中以BLOB格式索引存储在数据库中的原始二进制数据

时间:2014-02-24 09:02:10

标签: solr binary apache-tika

我们在BLOB中存储了数据库(不是word,excel,xml等文件)中的原始二进制数据。 我们正在尝试使用TikaEntityProcessor进行索引,但似乎没有任何内容被编入索引。 但是当xml / word / excel文件存储在BLOB字段中时,相同的配置有效。 下面是我们的data-config.xml:

<dataSource name="db" driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@//a.a.a.a:a/d11gr21" user="abc" password="abc" convertType="true"/>

<dataSource name="dastream" type="FieldStreamDataSource" />
<document>
<entity 
  name="messages" pk=" PK" transformer='DateFormatTransformer'
  query="select * from table1"
  dataSource="db">
                    <field column =" PK" name ="id" />
            <field column="last_modified"  dateTimeFormat="YYYY-MM-DD HH24:MI:SS" locale="en" />
<entity 
name="message"
    dataSource="dastream"
    processor="TikaEntityProcessor"
    url="message"
    dataField="messages.MESSAGE"
                            format="text"
    >
<field column="text" name="mxMsg" blob="true"/>
  </entity>
</entity>

请建议我索引二进制数据所需的更改

1 个答案:

答案 0 :(得分:0)

在Solr中,二进制数据可以索引/查询为Base64编码的字符串。