使用linux进行pdf嵌入的高效图像压缩

时间:2011-12-02 15:04:59

标签: linux pdf image-processing imagemagick djvu

我想压缩扫描文本(单色或少量颜色)并将其存储在pdf(可能是djvu)文件中。我记得我用Windows / Acrobat和嵌入到pdf中的“ZRLE”压缩单色tiff得到了非常好的结果。据我记得,这个算法很简单。现在我搜索一种在linux上获得良好结果的方法。它应该是存储节省并避免丢失(我不介意丢失颜色,但我不想要例如jpeg压缩,这会产生文本扫描的噪声结果)。我需要它进行批量转换,所以我想到了ImageMagick转换命令。但是我应该使用哪种输出格式,以便获得良好的结果并能够将其嵌入到pdf文件中(例如使用pdflatex)?或者通常使用djvu文件会更好吗?

2 个答案:

答案 0 :(得分:2)

DJVU不是一个糟糕的选择,但是如果你想保持PDF以获得更好的兼容性,你可能需要调查lossless JBIG2压缩。

来自维基百科的引用:

  

总的来说,JBIG2用于压缩文本的算法非常相似   用于编码的DjVu文件格式的JB2压缩方案   二进制图像。

答案 1 :(得分:1)

jbig2enc 使用jbig2压缩的图像编码器, 最初是由 Adam Langley

为GoogleBooks编写的

https://github.com/agl/jbig2enc

我分叉包括Rubypdf和其他人的最新改进

https://github.com/DingoDog/jbig2enc

我还为 puppy linux 构建了几个 jbig2enc 的二进制文件(它也适用于其他发行版)

http://dokupuppylinux.info/programs:encoders