什么是随机数据的最佳无损压缩算法

时间:2017-09-11 14:42:56

标签: algorithm compression data-compression lossless-compression

我需要压缩像[25,94,182,3,254,...]这样的随机流数据。数据量接近400万。我目前只通过霍夫曼代码获得1.4倍的比率。我试过的LZW算法需要花费太多时间来压缩。我希望找到一种效率压缩方法,并且仍然具有高压缩率,至少3倍。 还有另一种能够更好地压缩这种随机数据的算法吗?

1 个答案:

答案 0 :(得分:1)

这取决于rng的分布。压缩比为1:1.4表明它不均匀或不好。霍夫曼和算术编码实际上是唯一的选项*,因为良好RNG的连续条目之间没有其他相关性。

*确切地说,最佳压缩方案必须是0阶统计压缩,能够为每个符号分配可变数量的位以达到香农熵

H(x) = -Sigma_{i=1}^{N} P(x_i) log_2 P(x_i)

理论上最好的是通过算术编码实现,但其他编码可能是偶然的。算术编码每个符号可以分配少于一个比特,其中霍夫曼或哥伦布编码每个符号(或符号组)至少需要一个比特。