我正在查看香农的定义,如果内在信息和熵("消息")。 老实说,我没有直观地理解为什么香农用对数来定义这两个(除了理想的"分裂乘法和和#34;对数的性质,这确实是可取的。)
有人能帮助我解释一下吗?
感谢。
答案 0 :(得分:1)
我相信Shannon在贝尔实验室工作时他开发了Shannon熵的概念:他的研究目标是用位(0和1)来最好地编码信息。
这就是log2的原因:它与消息的二进制编码有关。如果在电信线路上传输可以采用8个不同值的数字,则需要长度为3比特(log2(8) = 3
)的信号来传输这些数字。
Shannon entropy是编码消息的每个字符所需的最小位数(对于以任何字母表写的任何消息)。
让我们举个例子。我们有以下消息用bit编码:
"0112003333"
。
消息的字符在{0,1,2,3}
中,因此我们最多需要log2(4) = 2
位来编码此消息的字符。例如,我们可以使用以下方式对字符进行编码:
0 would be coded by 00
1 would be coded by 01
2 would be coded by 10
3 would be coded by 11
然后将该消息编码为:"00010110000011111111"
但是,如果我们选择仅在一位上编码最频繁的字符而在另外两位上编码,则我们可以做得更好:
0 would be coded by 0
1 would be coded by 01
2 would be coded by 10
3 would be coded by 1
然后将该消息编码为:"0010110001111"
因此"0112003333"
的熵在1到2之间(更确切地说是1.85)。