在压缩和信息理论方面,源的熵是来自源的符号可以传达的平均信息量(以位为单位)。非正式地说,如果我们确定一个事件的结果,那么熵就会减少。
J. Principe, D. Xu, and J. Fisher, “Information theoretic learning,” in Unsupervised Adaptive Filtering, S. Haykin, Ed. New York: Wiley, 2000, vol. I, pp. 265–319.
熵(Shannon和Renyis)已经被用于学习,它将误差的熵最小化为目标函数而不是均方误差。
我的问题是
答案 0 :(得分:1)
这可能更适合于CS Stack Overflow,但只要我们有一个计算机科学标签,我就不愿意这样做了。 (注意:不 CS Theory Stack Overflow,这是研究级别的讨论,而不是。他们将立即投票并关闭。)
无论如何,直观的答案几乎与你所说的完全一样:当你最小化某些东西的熵时,你正在提高你预测它的能力。如果最小化模型和结果之间的错误熵,则表示您正在提高模型的预测能力。
为了在数学上磨砺这种直觉,在你内化它之前,先去研究期望最大化算法之类的东西。如果你发现EM很难,那就去研究像贝叶斯概率这样的东西,直到EM有意义。