我有一个项目需要将MHT文档转换为PDF格式。文件是大尺寸图纸(C,D,E)。 这些文档被手动加载到我的Web应用程序(Unix AIX上的Apache / Tomcat)中,并且要求将文件上的MHT文件转换为具有更可移植的文件。
我将项目分为两个步骤: 1)MHT到HTML提取(带图像) 2)HTML到PDF的转换。
对于第1步,感谢此链接How to read or parse MHTML (.mht) files in java,我能够提出一个java解决方案来提取并创建一个HTML文件。它运作良好。我必须稍微增强代码以适应我的环境。
对于第2步,情况有点困难。我开始研究html2doc软件http://www.msweet.org/projects.php?Z1,花了几天构建代码后,我发现它只处理字母和法定大小的文档。 我开始关注wkhtmltopdf http://wkhtmltopdf.org/,但它自己也成了构建它的任务。 总体而言,AIX Unix并不是构建应用程序的最友好环境,而且大多数选项都在其他操作系统中运行。我尽可能使用xlc编译器。 我想要一个java解决方案,但任何解决方案都可以执行就好了。