使用TikaEntityProcessor获取图像文件元数据并索引到Solr

时间:2014-03-25 15:16:38

标签: image apache solr indexing metadata

有人可以建议如何获取图像文件的元数据(例如.jpg,.png,.gif等)并将这些数据编入Apache Solr?

目前,我正在使用Apache Solr 4.2。在DataImport配置文件中(对我来说,我将其命名为“db-import-config.xml”),我尝试将TikaEntityProcessor与ImageMetadataExtractor一起使用。

<entity name="tika-test"
        dataSource="binary"      // using BinURLDataSource
        processor="TikaEntityProcessor"
        onError="skip"
        rootEntity="false"
        url="${dbmw_image.url}"
        format="none"
        parser="org.apache.tika.parser.image.ImageMetadataExtractor">
        <field column="contributor" name="authors" meta="true"/>
        <field column="creator" name="authors" meta="true"/>
        <field column="data" name="creationDate" meta="true"/>
        <field column="modified" name="lastModifiedDate" meta="true"/>
 </entity>

字段“列”全部来自Dublin Core元数据列表。当我在Solr上尝试dataimport时,这些字段都没有被拾取。我需要以下问题的答案:

  1. 图像文件的可用元数据字段名称是什么? (即我可以在上面的Tika实体中的“field”的“column”属性中放置的值)
  2. 如何索引和获取这些元数据值(通过Tika?)并索引到Solr? (例如,我需要哪种解析器?我应该如何设置tika实体属性等)
  3. 任何建议都表示赞赏。

    谢谢,

1 个答案:

答案 0 :(得分:0)

你看过TikaEntityProcessor documentation了吗? 具体来说是Finding field names