熵和信息关系

时间:2014-07-26 03:59:39

标签: computer-science estimation entropy

在压缩和信息理论方面,源的熵是来自源的符号可以传达的平均信息量(以位为单位)。非正式地说,如果我们确定一个事件的结果,那么熵就会减少。

J. Principe, D. Xu, and J. Fisher, “Information theoretic learning,” in Unsupervised Adaptive Filtering, S. Haykin, Ed. New York: Wiley, 2000, vol. I, pp. 265–319.

熵(Shannon和Renyis)已经被用于学习,它将误差的熵最小化为目标函数而不是均方误差。

我的问题是

  1. 最小化错误熵的理由是什么?当熵最大时,我们能对信息说些什么呢? 谢谢

1 个答案:

答案 0 :(得分:1)

这可能更适合于CS Stack Overflow,但只要我们有一个计算机科学标签,我就不愿意这样做了。 (注意: CS Theory Stack Overflow,这是研究级别的讨论,而不是。他们将立即投票并关闭。)

无论如何,直观的答案几乎与你所说的完全一样:当你最小化某些东西的熵时,你正在提高你预测它的能力。如果最小化模型和结果之间的错误熵,则表示您正在提高模型的预测能力。

为了在数学上磨砺这种直觉,在你内化它之前,先去研究期望最大化算法之类的东西。如果你发现EM很难,那就去研究像贝叶斯概率这样的东西,直到EM有意义。