关于信息和熵定义的性质

时间:2015-06-07 19:40:14

标签: information-theory

我正在查看香农的定义,如果内在信息和熵("消息")。 老实说,我没有直观地理解为什么香农用对数来定义这两个(除了理想的"分裂乘法和和#34;对数的性质,这确实是可取的。)

有人能帮助我解释一下吗?

感谢。

1 个答案:

答案 0 :(得分:1)

我相信Shannon在贝尔实验室工作时他开发了Shannon熵的概念:他的研究目标是用位(0和1)来最好地编码信息。

这就是log2的原因:它与消息的二进制编码有关。如果在电信线路上传输可以采用8个不同值的数字,则需要长度为3比特(log2(8) = 3)的信号来传输这些数字。

Shannon entropy是编码消息的每个字符所需的最小位数(对于以任何字母表写的任何消息)。

让我们举个例子。我们有以下消息用bit编码: "0112003333"。 消息的字符在{0,1,2,3}中,因此我们最多需要log2(4) = 2位来编码此消息的字符。例如,我们可以使用以下方式对字符进行编码:
0 would be coded by 00 1 would be coded by 01 2 would be coded by 10 3 would be coded by 11
然后将该消息编码为:"00010110000011111111"

但是,如果我们选择仅在一位上编码最频繁的字符而在另外两位上编码,则我们可以做得更好:
0 would be coded by 0 1 would be coded by 01 2 would be coded by 10 3 would be coded by 1
然后将该消息编码为:"0010110001111"

因此"0112003333"的熵在1到2之间(更确切地说是1.85)。