Apache Tika(或任何JVM库)是否可以生成引用图像的有序提取数据,以及文本,例如文本。来自PDF?

时间:2015-06-03 01:26:57

标签: extract extraction apache-tika text-extraction

基本上,我希望能够创建一组幻灯片'基于PDF或Word文档等文档的摘录,以编程方式。

为此,我需要[粗略地]知道文本中最初放置的任何嵌入图像的位置,因此,只需将图像资源转储到磁盘就不会了帮助*。

我是Java开发者,所以我不担心代码; - )

*除非在[Tika]提取物输出中,在适当的位置或线上有参考文献。

0 个答案:

没有答案