应用错误收集

从PDF文件中提取文本和图像

时间：2014-01-15 15:04:44

标签： java image pdf text extract

我一直在用这个撞墙撞墙，已经研究过并且几乎尝试了每个图书馆给我建议。我目前正在尝试用java编写一个程序，它将从pdf文件中提取文本和图像，并允许我将提取的内容写入word文件。我已经设法使用ICEpdf库提取内容，但问题是我需要能够以与读取时完全相同的顺序编写内容。因此，为了澄清，我需要一个库来帮助我跟踪文本和图像所在页面的确切位置，以便将它们放在我的word文件中的相同位置。

2 个答案:

答案 0 :(得分：0)

PDF到Word转换器是一个非常复杂的命题。

您最好的选择可能是使用Open Office为您完成，甚至不尝试处理中间步骤。

http://www.openoffice.org/api/

答案 1 :(得分：0)

看看这个：Advanced PDF parser for Java

OFF：

- 据我所知，有一个python解析器可以将pdf转换为html（这样你就可以跟踪pdf中对象的顺序）。我知道它不是java，但你可以使用输出。 http://www.unixuser.org/~euske/python/pdfminer/index.html