几周前,我们的用户指出,一些大型OCRed PDF(生成的ABBYY)加载速度非常慢,并要求我们对其进行一些优化。
经过一番调查后,问题似乎是由PDF中嵌入的复杂文本引起的。我尝试了不同的脚本来优化PDF,例如ghostscript,qpdf等......
我发现的唯一一个显着改进的是使用带有-passfonts选项的pdftops(来自poppler)并使用ghostscript ps2pdf将其转换回PDF:pdftops -passfonts intput.pdf output.ps&& ps2pdf output.ps output.pdf。
然而,问题是我不知道-passfonts如何使PDF加载速度更快,是否会产生我不知道的副作用......
那么PDF专家可以对这种优化背后的原因/逻辑有所了解吗?
提前谢谢大家!! 杰弗里
答案 0 :(得分:0)
来自http://linux.die.net/man/1/pdftops
-passfonts
默认情况下,PDF文件中对非嵌入式8位字体的引用将替换为最接近的" Helvetica"," Times-Roman"或" Courier& #34;字体。此选项将对非嵌入字体的引用传递给PostScript文件
当文件打开时,阅读器将在系统上查找非嵌入字体,并在找到它们时加载它们。它的非嵌入字体越多,它必须进行的检查越多。有时字体不是出于法律原因而嵌入的,有时它们不是嵌入式的,因为它们使文件大小不成比例,以及其他各种原因。通过用更常见的字体替换非嵌入字体,我说你强迫PDF加载较少数量的字体,并可能强制PDF使用具有较小的内存占用,从而加快了加载时间。
比较之前和之后的字体列表。也许这会带来更多的光明。 如果您在Adobe Acrobat中打开文档: 文件 - >属性 - >字体的
谨慎使用字体替换!它可能会完全破坏文档的外观和感觉。