如何使用apache tika迭代文件夹中的所有pdf文件以进行数据提取

时间:2017-05-25 03:51:44

标签: solr lucene apache-tika

PDF文件夹中有多个PDF名称不同。

 <dataSource type="BinFileDataSource" name="data"/>
        <dataSource type="URLDataSource" baseUrl="${solr.install.dir}/example/exampledocs/PDF" name="main"/>

如何迭代所有这些文件并使用文档名称作为密钥索引每个文档内容。

1 个答案:

答案 0 :(得分:2)

the refreshed DIH Tika example中将证明这将与Solr 6.6一起提供。