如何解析PDF文件并使用Java在word文件中编写内容?
答案 0 :(得分:9)
要使用Java解析PDF文件,可以使用Apache PDFBox:http://incubator.apache.org/pdfbox/
要在Java中读取/写入Word(或其他Office)文件格式,请尝试使用POI:http://poi.apache.org/
两者都是免费的。
答案 1 :(得分:5)
试试iText java库:
iText是一个理想的库,适用于希望通过动态PDF文档生成和/或操作来增强Web和其他应用程序的开发人员。
它可用于解析步骤。
至于生成word文档 - OpenOffice Java API可能能够生成与Word兼容的文档(没有使用此API的个人经验)。
答案 2 :(得分:3)
您可能想尝试以下任何一种方法:
一旦您阅读PDF文件的内容,您也可以将它们存储在ODT文件或文本文件中。对于ODT文件,请尝试http://odftoolkit.openoffice.org。
最佳!
答案 3 :(得分:0)
如果源PDF主要是文本,则可以使用iText。在解析时,图像等很难处理。如果它只是文本,它就像10行代码一样简单。有关示例,请参阅iText手册。
对于写单词文件,只有Apache POI。想弄清楚可能有点棘手,但对于这么简单的任务,它不应该是任何问题。