为什么纸上的值较大时,softmax的梯度会变小“注意就是您所需要的”

时间:2019-02-27 12:42:14

标签: deep-learning nlp softmax attention-model

这是原始纸张的屏幕:the screen of the paper。我理解本文的意思是,当点积的值较大时,softmax的梯度将变得很小。
但是,我尝试通过交叉熵损失来计算softmax的梯度,发现softmax的梯度与传递给softmax的值没有直接关系。
即使单个值很大,当ather值很大时,它仍然可以得到较大的渐变。 (很抱歉,我不知道如何在此处进行计算)

1 个答案:

答案 0 :(得分:0)

实际上,在一个热编码向量上具有softmax的交叉熵的梯度在相应类别的向量的索引处仅为grad -log(softmax(x))=(1-softmax(x))。 (https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)。如果传递给softmax的值较大,则softmax将产生1,因此产生0梯度。