我想压缩扫描文本(单色或少量颜色)并将其存储在pdf(可能是djvu)文件中。我记得我用Windows / Acrobat和嵌入到pdf中的“ZRLE”压缩单色tiff得到了非常好的结果。据我记得,这个算法很简单。现在我搜索一种在linux上获得良好结果的方法。它应该是存储节省并避免丢失(我不介意丢失颜色,但我不想要例如jpeg压缩,这会产生文本扫描的噪声结果)。我需要它进行批量转换,所以我想到了ImageMagick转换命令。但是我应该使用哪种输出格式,以便获得良好的结果并能够将其嵌入到pdf文件中(例如使用pdflatex)?或者通常使用djvu文件会更好吗?
答案 0 :(得分:2)
DJVU不是一个糟糕的选择,但是如果你想保持PDF以获得更好的兼容性,你可能需要调查lossless JBIG2压缩。
来自维基百科的引用:
总的来说,JBIG2用于压缩文本的算法非常相似 用于编码的DjVu文件格式的JB2压缩方案 二进制图像。
答案 1 :(得分:1)
jbig2enc 使用jbig2压缩的图像编码器, 最初是由 Adam Langley
为GoogleBooks编写的https://github.com/agl/jbig2enc
我分叉包括Rubypdf和其他人的最新改进
https://github.com/DingoDog/jbig2enc
我还为 puppy linux 构建了几个 jbig2enc 的二进制文件(它也适用于其他发行版)