PDF压缩 - HTML到PDF(wkhtmltopdf)

时间:2016-06-07 10:53:13

标签: java pdf merge compression wkhtmltopdf

背景

我正在开发一个Scala / Java项目,我们将单个 HTML文件转换为PDF文件。然后我们将各个文件合并为一个更大的完整PDF文件。

对于转换,我们使用sPDF,它建立在 wkhtmltopdf 之上。对于合并,我们使用PDFMergerUtility

制作单个文件的原因有点复杂 - 但应该注意的是,我们不能制作一个大的PDF并且必须首先制作单个文件。

问题

最初我们对这种方法没有任何问题 - 但随着系统的发展 - 最终的PDF文件也是如此。我们从 2MB-3MB 的文件转到 20MB 的文件。我想知道是否有任何明显的压缩方法或技术可供我们使用?

各个文件中有很多共享内容,但由于我们只是将它们合并为隔离/独立文件(因为,所有内容都不相同)单个文件正被重用以节省空间)它在降低文件大小方面没有什么作用。

如果我手动压缩最终的PDF文件,它会大大减少文件大小 - 显然会有很多重复的内容。

所以一个选项可能只是在我完成合并之后压缩PDF,但我更愿意在合并过程或转换过程中压缩它。 有什么想法吗?

1 个答案:

答案 0 :(得分:1)

您可以尝试Sejda合并,它是Java,开源并基于PDFBox的分支。它可以使用对象流生成PDF文件(PDFBox目前不支持它),并且如果它不会减小那么多的大小,你可以尝试管道它的压缩'通过文档删除未使用的资源并压缩图像的任务。

它作为PDFsam引擎的战斗进行了测试,因此,如果您想快速测试并查看结果,只需下载PDFsam,将合并模块与您的文件一起使用(和压缩标志打开),结果是Sejda将生成的。