解释“信息论”的实用方法

时间:2010-02-21 16:51:04

标签: encryption image-processing compression cryptography information-theory

信息理论发挥作用,无论何时编码和解码存在。例如:压缩(多媒体),加密。

在信息理论中,我们遇到诸如“熵”,“自我信息”,“相互信息”等术语,整个主题基于这些术语。这听起来只不过是抽象的。坦率地说,他们没有任何意义。

是否有任何书籍/材料/解释(如果可以的话)以实用的方式解释这些事情?

修改

  

An Introduction to Information Theory: symbols, signals & noise by John Robinson Pierce The Book 以我想要的方式(实际上)解释它。太好了。我开始读它了。

7 个答案:

答案 0 :(得分:7)

Shanon的原始论文“A mathematical theory of communication”是研究这一理论的一个非常重要的资源。没有人会想念它。

通过阅读它,你将理解Shanon是如何得出应该清除大部分疑虑的理论的。

同时研究霍夫曼压缩算法的工作将非常有帮助。

修改

  

信息理论导论

     

John R. Pierce

根据亚马逊的评论(我还没试过),

似乎很好。

[通过Googleing“信息理论外行”]

答案 1 :(得分:5)

我对“信息论”的看法是,它本质上只是应用数学/统计学,但因为它被应用于通信/信号,所以它被称为“信息论”。

开始理解概念的最佳方式是为自己设定一项真正的任务。比如说你把你最喜欢的博客的几页保存为文本文件,然后尝试减小文件的大小,同时确保你仍然可以完全重建文件(即无损压缩)。你将开始例如替换1的所有实例和例如....

我总是认为从实践中学习将是最好的方法

答案 2 :(得分:1)

我打算推荐Feynman用于流行sci目的,但经过反思,我认为它也可能是一个很好的选择,也可以放宽学习。你不能在没有数学的情况下真正了解这些东西,但费曼是如此令人回味,以至于他偷偷溜进了数学而没有吓到马。

Feynman Lectures on Computation http://ecx.images-amazon.com/images/I/51BKJV58A9L._SL500_AA240_.jpg

涵盖的不仅仅是信息理论,而是更好的东西和令人愉快的阅读。 (此外,我有义务拉开物理团队。 Rah!Rah!Rhee!

答案 3 :(得分:1)

我记得有些文章,我认为,个人计算机世界提供了用于识别硬币的ID3版本,尽管它使用了日志公式的启发式替代方法。我认为它最小化了平方和而不是最大化熵 - 但这是很久以前的事了。在(我认为)Byte中有另一篇文章使用日志公式来获取类似信息(不是熵)。这样的事情给了我一个让理论更容易应对的手柄。

编辑 - 通过“非熵”我的意思是我认为它使用了信息值的加权平均值,但没有使用“熵”这个名称。

我认为从决策表构建简单的决策树是理解概率和信息之间关系的一种非常好的方法。它使得从概率到信息的链接更加直观,并且它提供了加权平均的示例,以说明平衡概率的熵最大化效应。非常好的一天 - 一种教训。

还有什么好处的是你可以用霍夫曼解码树( ,毕竟是“我解码的那个令牌?”决策树)替换那个决策树并建立链接编码。

BTW - 请看一下这个链接...

Mackay有一本免费下载的教科书(并有印刷版),虽然我还没有读过,但我读过的部分看起来非常好。特别是,从第293页起,对贝叶斯“解释”的解释牢记在心。

CiteSeerX是一个非常有用的信息理论论文资源(除其他外)。两篇有趣的论文是......

虽然CN2可能不是第一天的材料。

答案 4 :(得分:0)

信息理论在例如非常有效的应用中。机器学习和数据挖掘。特别是数据可视化,变量选择,数据转换和预测,信息理论标准是最流行的方法之一。

参见例如

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.87.825&rep=rep1&type=pdf 要么 http://www.mdpi.com/1424-8220/11/6/5695

信息理论允许我们以正式方式处理最佳数据压缩,例如在后验分布和马尔可夫毯子方面:

http://www.mdpi.com/1099-4300/13/7/1403

它允许我们检索变量选择中出错概率的上限和下限:

http://www.mdpi.com/1099-4300/12/10/2144

与统计学相比,使用信息理论的一个优点是,不一定需要建立概率分布。人们可以计算信息,冗余,熵,传递熵而不试图估计概率分布。在没有信息丢失的情况下的可变消除是根据条件后验概率的保存来定义的,使用信息理论可以找到类似的公式......而不需要计算概率密度。计算相当于变量之间的互信息,文献为这些提供了许多有效的估计和较低的近似。看到: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.87.825&rep=rep1&type=pdf http://www.mdpi.com/1424-8220/11/6/5695

答案 5 :(得分:0)

我可以通过Glynn Winskel推荐这本书。它在我的大学用于信息理论课程。 它从逻辑理论开始,然后定义一个简单的命令式语言,称为IMP,它遵循许多关于语言中形式语义的概念。

编程语言的形式语义

http://mitpress.mit.edu/books/formal-semantics-programming-languages

答案 6 :(得分:0)

虽然这些概念可能是抽象的,但它们最近在机器学习/人工智能中得到了很好的应用。这可能是对这些理论概念的实际需要的良好动机。总之,您希望估计功能逼近器(LSTM,RNN或CNN或线性回归)在建模真实分布中的表现如何 - 这是互信息或相对熵,例如最小化cnn中的交叉熵或最小化失真函数/线性回归中的距离..

此外,如果没有对信道容量和属性进行一些理论分析,您将无法构建有用的通信或联网系统。

从本质上讲,它可能看起来具有理论性,但却是当前传播时代的核心。

为了更清楚地了解我的意思,我邀请您观看此ISIT讲座:由David TSe教授撰写的https://www.youtube.com/watch?v=O_uBxFGk-U4&t=1563s