应用错误收集

为什么纸上的值较大时，softmax的梯度会变小“注意就是您所需要的”

时间：2019-02-27 12:42:14

标签： deep-learning nlp softmax attention-model

这是原始纸张的屏幕：the screen of the paper。我理解本文的意思是，当点积的值较大时，softmax的梯度将变得很小。
但是，我尝试通过交叉熵损失来计算softmax的梯度，发现softmax的梯度与传递给softmax的值没有直接关系。
即使单个值很大，当ather值很大时，它仍然可以得到较大的渐变。（很抱歉，我不知道如何在此处进行计算）

1 个答案:

答案 0 :(得分：0)

实际上，在一个热编码向量上具有softmax的交叉熵的梯度在相应类别的向量的索引处仅为grad -log（softmax（x））=（1-softmax（x））。（https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/）。如果传递给softmax的值较大，则softmax将产生1，因此产生0梯度。

什么是您需要的首选STL系列？
为什么当maxread值很大并且重新获得的消息数量很少时，kafka消费者会变得无限？
当尺寸较小时，径向梯度有时不可见
如何获得所需的价值？
正弦嵌入 - 您只需要注意力
变压器-您只需要关注-编码器解码器交叉关注
为什么纸上的值较大时，softmax的梯度会变小“注意就是您所需要的”
为什么在第一注意论文中没有使用词嵌入（Glove，word2vecetc）？
对于较小的数据集而言，梯度下降无法收敛到非常大的值
最后一层的梯度非常大，其余部分的梯度很小

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？