解析XPS或PDF并将数据插入Word模板?

时间:2013-07-04 00:53:34

标签: parsing pdf xps

因此,我可以选择从数据库发送文档,以PD​​F或XPS格式打印。我需要能够从其中一种格式中提取特定数据,例如名称,日期等,并将该数据插入到单词模板中。单词模板不可编辑。您只能在字段中键入...每个字段前面都有一个标题,例如name,dob等。

基本上我需要能够自动将PDF或XPS文件中的信息传输到单词模板中。

我对C ++,Python和Java非常熟悉。所以我没有语言偏好 - 无论做什么都可以完成。

你能否提出一种方法来实现这一目标?我有点难以弄清楚我可以从其中一种文件类型中解析/提取数据的方式,以及哪种文件类型是更好的候选者。我绝对不知道如何自动化Word模板中的字段数量。

哦,忘了提一下,这是在Windows 7(可能是8台,但大多数是7台)机器上。

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

这适用于任何有同样问题的人,所以我就这样做了:

我使用PDFBox(http://pdfbox.apache.org/)来解析文档并提取所需的数据,然后我使用docx4j(http://www.docx4java.org/trac/docx4j)将数据插入到word模板中。两者都是令人难以置信的工具,并拥有优秀的社区,几乎可以立即提供帮助。