从PDF文件中提取文本和图像

时间:2014-01-15 15:04:44

标签: java image pdf text extract

我一直在用这个撞墙撞墙,已经研究过并且几乎尝试了每个图书馆给我建议。我目前正在尝试用java编写一个程序,它将从pdf文件中提取文本和图像,并允许我将提取的内容写入word文件。我已经设法使用ICEpdf库提取内容,但问题是我需要能够以与读取时完全相同的顺序编写内容。因此,为了澄清,我需要一个库来帮助我跟踪文本和图像所在页面的确切位置,以便将它们放在我的word文件中的相同位置。

2 个答案:

答案 0 :(得分:0)

PDF到Word转换器是一个非常复杂的命题。

您最好的选择可能是使用Open Office为您完成,甚至不尝试处理中间步骤。

http://www.openoffice.org/api/

答案 1 :(得分:0)

看看这个:Advanced PDF parser for Java

OFF:

- 据我所知,有一个python解析器可以将pdf转换为html(这样你就可以跟踪pdf中对象的顺序)。我知道它不是java,但你可以使用输出。 http://www.unixuser.org/~euske/python/pdfminer/index.html