是什么让一些pdf文件比其他文件小?

时间:2014-12-02 03:20:49

标签: pdf pdf-generation

我有一些PDF教科书,其中一些是超过400兆字节,1000页,而其他(看起来质量相似)只有10兆字节,1500页!我认为它可能是图像质量,但图像质量非常相似。接下来,当我放大时,我查看了文本,看到较大的书看起来像是光栅化文本,而较小的文件看起来像是有矢量文本。这是吗?

如果是这样,我怎样才能开始制作矢量格式的PDF文件?是否可以扫描文档/使用OCR识别文本,然后以某种方式将栅格化文本转换为矢量格式?你还可以将光栅化文本转换成矢量格式吗?

干杯,  埃文斯

1 个答案:

答案 0 :(得分:0)

在两种不同PDF类型的样本上检查此命令:

 pdfimages -list -f 1 -l 10 the.pdf

(您的PDF图像版本应该是最近的版本,Poppler版本。)这将为您提供前10页中所有图像的列表。它还列出了图像尺寸(宽度,高度),以像素为单位,以及图像大小(以字节为单位)和相应的压缩。)如果你能忍受它,你也可以运行:

 pdfimages -list the.pdf

这为您提供了所有页面中所有图片的列表。

我敢打赌,较大的一个会列出更多图片。

来自扫描与PDF的数据"天生的数字" ?

同时运行:

 pdffonts -f 1 -l 10 the.pdf

 pdffonts the.pdf

我的猜测是:您的大型 PDF类型不会列出任何字体。这意味着,这些PDF的页面很可能来自扫描的文件。

较小的是"天生的数字" ......