标签: extract extraction apache-tika text-extraction
基本上,我希望能够创建一组幻灯片'基于PDF或Word文档等文档的摘录,以编程方式。
为此,我需要[粗略地]知道文本中最初放置的任何嵌入图像的位置,因此,只需将图像资源转储到磁盘就不会了帮助*。
我是Java开发者,所以我不担心代码; - )
*除非在[Tika]提取物输出中,在适当的位置或线上有参考文献。