我们收到wordml文档,这些文档基本上是从msword文档生成的XML文件,其中也包含所有格式化说明。现在我们需要将这些文件转换为PDF。我看了iText xmlworker来做这个转换。它所做的只是删除了所有XML标签,并将所有内容作为PDF中的单个段落给了我,没有格式化。
如何确保生成的PDF包含来自此wordml文档的格式正确的文本。
答案 0 :(得分:0)
iText的产品XMLWorker要求您手动处理每个XML元素(除非您将HTML作为输入)。 MS Word文档的XML模式非常复杂,因此您需要花费几年时间才能获得看起来甚至可以远程查看的内容。简而言之,XMLWorker并不像您认为的那样。
如果您希望MS Word转换为PDF,则需要另一种解决方案。 XDocReport(MIT许可证)就是其中之一,它有iText 2(LGPL许可证)和iText 5(AGPL许可证)的插件。结果并不完美。