考虑一个3类的分类网络。
我将softmax作为最后一层并使用交叉熵损失。
让我们考虑通过网络运行的单个示例(x,y)
,其中该示例的正确类是第一类。
让我们考虑两种情况(针对网络的两种不同示例):
对于这两个样本,损失将为-log(0.5)
,但我的直觉认为第一种情况应具有较高的损失,因为它非常接近于在预测中出错。
我错了吗?为什么这不是问题?
答案 0 :(得分:0)
在softmax交叉熵中,您仅关心正确的类的可能性。如果很可能会损失很小,如果不太可能会损失很大。在类似于1的情况下,第二类的梯度要高得多,并且由于梯度下降而被推下的程度要比第二种情况下的2大得多。
您在分类任务中实际要优化的是准确性,在准确性方面,您也只关心正确地对所有示例进行分类,而不是关心多少。无论如何,Logit都不是可信赖的,因为它们往往会输出对元素的真正自信的预测,而这些预测与您的典型输入集相去甚远。