尽管上述两种方法都能提供更好的分数以获得更好的预测贴近度,但仍然优选交叉熵。是在每种情况下还是有一些特殊情况我们更喜欢交叉熵而不是MSE?
答案 0 :(得分:34)
交叉熵优先于分类,而均方误差是回归的最佳选择之一。这直接来自问题本身的陈述 - 在分类中,您使用非常特定的一组可能的输出值,因此MSE被严格定义(因为它没有这种知识,因此以不兼容的方式惩罚错误)。为了更好地理解这种现象,最好遵循和理解
之间的关系您会注意到两者都可以被视为最大似然估计,只是对因变量有不同的假设。
答案 1 :(得分:8)
例如,如果进行逻辑回归,则将使用sigmoid函数来估计de概率,将交叉熵用作损失函数,使用梯度下降来最小化它。这样做但使用MSE作为损失函数可能会导致非凸问题,您可能会发现局部最小值。使用交叉熵将导致一个凸出的问题,您可能会找到最佳解决方案。
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35