有人能建议二进制压缩算法吗?

时间:2016-01-02 06:55:42

标签: binary compression portable-executable

我正在制作一个打包器(运行时压缩)来研究Windows PE格式文件。我知道一些数据压缩算法,如RLE,LZW,Huffman-endoing等。但哪种算法最适合压缩二进制数据。就像.exe文件一样?有谁能建议压缩二进制数据哪个最好?

1 个答案:

答案 0 :(得分:0)

对于启动器,你应该从LZ77 or LZ78 algorithm开始,它提供了相当好的压缩比和一个小的解压缩存根(显然有一个小的解压缩存根是打包器必须具备的。)

遵循LZ7x算法的是LZMA算法,它提供(通常)比LZ7x算法更好的压缩。

如果您之前从未编写过打包程序,我建议您使用PIC(Position Independent Code)样式中的低级语言(C是事实上的语言)编写解压缩存根,并且只是一些小的需要时使用汇编语言编写部件。这样做的好处是让编译器为你完成大部分工作以解决相互矛盾的问题(至少在第1点和第2点):

  1. 解压缩存根码长度必须最小
  2. 解压缩存根码的速度必须是最佳的
  3. 压缩和解压缩的内存使用必须保持合理的限制
  4. 然后,您可以调整输出装配,以便在上述各点之间进行良好的权衡。

    一旦你对压缩理论有了很好的理解,你应该明确地寻求实现一个PAQ派生压缩器。

    遵循PAQ主导有很多好处:

    • 众所周知,它是多个领域中最好的压缩器(文本,图像 和可执行文件,尽管每次都有不同的建模上下文)。请参阅各种基准herehere

    • 它是开源的(并遵循GPL许可证)。

    特别要特别注意PAQ8PX变体的开始。在生成的压缩PE文件中注入最小(长度)和快速解压缩存根将是该作业中最困难的部分。

    PAQ算法也被farbrausch demoscene组用于kkrunchy着名的PE压缩器。其内部的一个很好的一瞥就是explained here

    最后一句话,如果你不习惯数据压缩理论,我建议作为第一读,Matt Mahoney(PAQ的作者)和维基书的非常好的介绍Data Compression Explained关于data compression theory

    请记住,压缩始终是一种权衡:最佳压缩比并不总是最终用户想要的。如果您需要256 GB的内存或等待5分钟或者有一个10 MB字节的解压缩存根来解压缩,这显然不是正确的路径......