Question

在压缩和信息理论方面，源的熵是来自源的符号可以传达的平均信息量（以位为单位）。非正式地说，如果我们确定一个事件的结果，那么熵就会减少。

J. Principe, D. Xu, and J. Fisher, “Information theoretic learning,” in Unsupervised Adaptive Filtering, S. Haykin, Ed. New York: Wiley, 2000, vol. I, pp. 265–319.

熵（Shannon和Renyis）已经被用于学习，它将误差的熵最小化为目标函数而不是均方误差。

我的问题是

最小化错误熵的理由是什么？当熵最大时，我们能对信息说些什么呢？谢谢

Answer 1

这可能更适合于CS Stack Overflow，但只要我们有一个计算机科学标签，我就不愿意这样做了。（注意：不 CS Theory Stack Overflow，这是研究级别的讨论，而不是。他们将立即投票并关闭。）

无论如何，直观的答案几乎与你所说的完全一样：当你最小化某些东西的熵时，你正在提高你预测它的能力。如果最小化模型和结果之间的错误熵，则表示您正在提高模型的预测能力。

为了在数学上磨砺这种直觉，在你内化它之前，先去研究期望最大化算法之类的东西。如果你发现EM很难，那就去研究像贝叶斯概率这样的东西，直到EM有意义。

熵和信息关系

1 个答案: