如何使用Apache Tika从PDF文档中提取特定数据

时间:2017-04-06 07:44:06

标签: java pdf apache-tika

我正在尝试使用Apache Tika™PDF文档中提取以下信息

  1. 作者名单(不仅仅是主要作者)
  2. 文件摘要。
  3. 所有相关文档标识符,例如DOI,ISBN,ISSN,PUI等
  4. 文件标题和子标题
  5. 文档图片
  6. 引用列表
  7. 对于上面的列表,我可以想象它唯一的" 3)。"我将需要雇用"其他"从我所看到的内容中获取所有文档ID的资源不能依赖于包含所有相关标识的PDF文档。

    对于所有其他内容,它必须是可用的"不知何故"通过使用Tika内置功能或开发一组自定义处理程序和/或解析器。

    是否有可能采用Apache Tike"开箱即用"提取所需信息?

0 个答案:

没有答案