我一直在用这个撞墙撞墙,已经研究过并且几乎尝试了每个图书馆给我建议。我目前正在尝试用java编写一个程序,它将从pdf文件中提取文本和图像,并允许我将提取的内容写入word文件。我已经设法使用ICEpdf库提取内容,但问题是我需要能够以与读取时完全相同的顺序编写内容。因此,为了澄清,我需要一个库来帮助我跟踪文本和图像所在页面的确切位置,以便将它们放在我的word文件中的相同位置。
答案 0 :(得分:0)
答案 1 :(得分:0)
看看这个:Advanced PDF parser for Java
OFF:
- 据我所知,有一个python解析器可以将pdf转换为html(这样你就可以跟踪pdf中对象的顺序)。我知道它不是java,但你可以使用输出。 http://www.unixuser.org/~euske/python/pdfminer/index.html