交叉熵损失-为什么损失不受样本错误概率的影响?

时间:2019-10-28 16:25:30

标签: deep-learning

考虑一个3类的分类网络。

我将softmax作为最后一层并使用交叉熵损失。

让我们考虑通过网络运行的单个示例(x,y),其中该示例的正确类是第一类。

让我们考虑两种情况(针对网络的两种不同示例):

  1. softmax输出(0.5,0.49,0.01)
  2. softmax输出(0.5,0.25,0.25)。

对于这两个样本,损失将为-log(0.5),但我的直觉认为第一种情况应具有较高的损失,因为它非常接近于在预测中出错。

我错了吗?为什么这不是问题?

1 个答案:

答案 0 :(得分:0)

在softmax交叉熵中,您仅关心正确的类的可能性。如果很可能会损失很小,如果不太可能会损失很大。在类似于1的情况下,第二类的梯度要高得多,并且由于梯度下降而被推下的程度要比第二种情况下的2大得多。

您在分类任务中实际要优化的是准确性,在准确性方面,您也只关心正确地对所有示例进行分类,而不是关心多少。无论如何,Logit都不是可信赖的,因为它们往往会输出对元素的真正自信的预测,而这些预测与您的典型输入集相去甚远。