我对他们如何计算“每个符号的平均位数”感到有些困惑。这是通过计算每个字符的概率并将其乘以lg(1 /概率)(如常规熵)或其他方式来计算的吗?
另外,如果这是真的,他们怎么知道一封信的平均出现是什么?
答案 0 :(得分:2)
我真的不应该回答这个,因为我对压缩知之甚少,但我可以说:
你是对的;它的常规熵定义为-Σp·log(p)
。请注意,这实际上不是字符的频率,而是消息的频率。即,以下一组消息
{ abcdefghijklmnopqrstuvwxyz }
看起来很棒,逐字母分析,但熵为0。
理论上不可能确切地知道,除非您知道生成消息的确切过程。你必须使用一些启发式方法。就像拿大样本和计数,或寻找你知道的模式是冗余的迹象。如英文文本等