通过观察输入分布来识别更多可压缩数据集

时间:2017-06-16 13:16:59

标签: algorithm compression huffman-code lossless-compression

这可能是这里的问题的重复:Predict Huffman compression ratio without constructing the tree

基本上,我有两个具有相同变量但概率不同的数据集的概率分布。现在,有没有办法通过查看变量分布,我可以在某种程度上自信地说数据集在通过霍夫曼编码实现时会实现比另一个更高的压缩率?

我遇到的一个解决方案是使用条件熵计算上限,然后计算平均代码长度。在使用上述方法之前,我是否可以探索其他任何方法?

非常感谢。

1 个答案:

答案 0 :(得分:0)

我在某种程度上不自信地知道""意味着,但您可以通过计算链接问题中的零阶熵来获得每个集合的压缩大小的下限(概率总和乘以概率日志的负数)。然后,较低的熵很可能产生比较高的熵更短的霍夫曼编码。这是不确定的,因为我确信人们可以提出一个反例。

如果要在另一端解码,您还需要发送代码本身的描述,这会给比较带来皱纹。但是,如果数据比代码描述大得多,那么噪声就会丢失。

简单地生成代码,编码数据和代码描述非常快。最好的解决方案是这样做,并直接比较得到的位数。