标签: deep-learning nlp softmax attention-model
这是原始纸张的屏幕:the screen of the paper。我理解本文的意思是,当点积的值较大时,softmax的梯度将变得很小。 但是,我尝试通过交叉熵损失来计算softmax的梯度,发现softmax的梯度与传递给softmax的值没有直接关系。 即使单个值很大,当ather值很大时,它仍然可以得到较大的渐变。 (很抱歉,我不知道如何在此处进行计算)
答案 0 :(得分:0)