使用TikaEntityProcessor&amp ;;配置文件元数据的Solr索引。 FieldStreamDataSource

时间:2013-06-20 20:04:56

标签: asp.net sql solr apache-tika

我创建了一个使用TikaEntityProcessor从SQL Server数据库中提取数据的索引。与我的配置文件关联的查询来自包含文件信息的表,以及作为二进制列的文件内容。我的索引返回我配置的数据库表中的所有字段,以及作为文件内容主体的“text”列。它正确索引文件文本!但是,元列不起作用!你可以看到我有一个文本/正文字段,这很好用。但是,我无法从文件中获取任何元数据,例如上次修改日期或作者。

任何建议都将不胜感激!!

数据-配置:

<dataConfig>
  <dataSource type="JdbcDataSource"
              driver="com.microsoft.sqlserver.jdbc.SQLServerDriver"
              url="jdbc:sqlserver://server;databaseName=db1;integratedSecurity=false"
              user="user"
              password="XXXXXX" convertType="false"
              name="ds"/>

  <dataSource name="fieldReader"
  type="FieldStreamDataSource"  />

  <document name="tika">
    <entity name="tika" pk="id" transformer="TemplateTransformer" dataSource="ds"
                query="select id, title from myDatabaseTable">
      <entity name="tika-test" processor="TikaEntityProcessor" dataSource="fieldReader"
          dataField="tika.FileContent" format="text">
        <field column="text" name="body"/>
        <field column="Last-Modified" name="lastModified" meta="true" /> <!-- not working -->

      </entity>
    </entity>
  </document>
</dataConfig>

架构:

<field name="id" type="integer" indexed="true" stored="true"  /> 
<field name="body" type="text" indexed="true" stored="true" />
<field name="lastModified" type="text" indexed="true" stored="true" /> 
<field name="title" type="text" indexed="true" stored="true" /> 

谢谢!

0 个答案:

没有答案