问题的最大部分是标题......
我有大量的pdf文件,这些文件是由连续扫描的文档制成的,类似于新闻文章:文本+图像。重要的部分是文字,而不是图片......
这就是为什么我认为(据此article)将pdf中的所有图像压缩为png或gif ...
感谢您提出的所有建议,我已经花了太多时间尝试优化我的ghostscript命令行选项:-p
仅供参考我当前的ghostscript 9.14命令行在生产中:
gs -q -sDEVICE=pdfwrite \
-dSAFER -dNOPAUSE -dBATCH -dQUIET -dPDFSETTINGS=/ebook \
-dColorImageResolution=150 -dGrayImageResolution=150 -dMonoImageResolution=800 \
-dPreserveOPIComments=false -dPreserveOverprintSettings=false \
-dUCRandBGInfo=/Remove -dProcessColorModel=/DeviceRGB -dMaxInlineImageSize=0 \
-dDetectDuplicateImages=true -dFastWebView=false -dUseFlateCompression=true \
-dAutoFilterGrayImages=false -dAutoFilterColorImages=false \
-dColorImageDownsampleThreshold=1.2 \
-sOUTPUTFILE=/tmp/screen_20140602103745.pdf \
-c "512000000 setvmthreshold /QFactor 0.80 /Blend 1 /ColorTransform 1 /HSamples [2 1 1 2] /VSamples [2 1 1 2]" \
-f /usr/bases/dicodrp/pdf/pdf_concatenes/20140602103745.pdf
我得到了大约40%的压缩率和只是可读,但我认为我可以在改变图像压缩类型时提高可读性(我得到了那些嘈杂的jpg工件......)
不,我无法增加dpi,因为这会增加文件大小...: - )