有人可以建议如何获取图像文件的元数据(例如.jpg,.png,.gif等)并将这些数据编入Apache Solr?
目前,我正在使用Apache Solr 4.2。在DataImport配置文件中(对我来说,我将其命名为“db-import-config.xml”),我尝试将TikaEntityProcessor与ImageMetadataExtractor一起使用。
<entity name="tika-test"
dataSource="binary" // using BinURLDataSource
processor="TikaEntityProcessor"
onError="skip"
rootEntity="false"
url="${dbmw_image.url}"
format="none"
parser="org.apache.tika.parser.image.ImageMetadataExtractor">
<field column="contributor" name="authors" meta="true"/>
<field column="creator" name="authors" meta="true"/>
<field column="data" name="creationDate" meta="true"/>
<field column="modified" name="lastModifiedDate" meta="true"/>
</entity>
字段“列”全部来自Dublin Core元数据列表。当我在Solr上尝试dataimport时,这些字段都没有被拾取。我需要以下问题的答案:
任何建议都表示赞赏。
谢谢,