应用错误收集

Apache Tika（或任何JVM库）是否可以生成引用图像的有序提取数据，以及文本，例如文本。来自PDF？

时间：2015-06-03 01:26:57

标签： extract extraction apache-tika text-extraction

基本上，我希望能够创建一组幻灯片＆＃39;基于PDF或Word文档等文档的摘录，以编程方式。

为此，我需要[粗略地]知道文本中最初放置的任何嵌入图像的位置，因此，只需将图像资源转储到磁盘就不会了帮助*。

我是Java开发者，所以我不担心代码; - ）

*除非在[Tika]提取物输出中，在适当的位置或线上有参考文献。

0 个答案:

没有答案