应用错误收集

RNN中的消失/爆炸梯度

时间：2020-06-17 14:19:46

标签： optimization recurrent-neural-network

我们知道 （损耗/初始层权重的导数）= || （激活矩阵）'||的雅可比矩阵。 ||权重矩阵||

取决于这两个矩阵规范的运算。如果权重矩阵奇异值很高，则可能会出现爆炸梯度。或较低的奇异值都会使我们的梯度消失。

我们对激活矩阵导数<= 0.25（Sigmoid）/ 1（tanh＆Relu）的理解相同。数字越低，乘积就越低。问题：

在RNN中，所有权重矩阵都相同。所以它应该一直给我们一个爆炸/消失的梯度吗？无论我们采取什么。

为什么不呢？

0 个答案:

没有答案