计算数据压缩的熵

时间:2011-09-12 04:06:13

标签: compression entropy

我对他们如何计算“每个符号的平均位数”感到有些困惑。这是通过计算每个字符的概率并将其乘以lg(1 /概率)(如常规熵)或其他方式来计算的吗?

另外,如果这是真的,他们怎么知道一封信的平均出现是什么?

1 个答案:

答案 0 :(得分:2)

我真的不应该回答这个,因为我对压缩知之甚少,但我可以说:

  • 如何定义“每符号位数”?

你是对的;它的常规熵定义为-Σp·log(p)。请注意,这实际上不是字符的频率,而是消息的频率。即,以下一组消息

{ abcdefghijklmnopqrstuvwxyz }

看起来很棒,逐字母分析,但熵为0。

  • 你怎么知道一封信的平均出现次数是什么?

理论上不可能确切地知道,除非您知道生成消息的确切过程。你必须使用一些启发式方法。就像拿大样本和计数,或寻找你知道的模式是冗余的迹象。如英文文本等