RNN中的消失/爆炸梯度

时间:2020-06-17 14:19:46

标签: optimization recurrent-neural-network

我们知道 (损耗/初始层权重的导数)= || (激活矩阵)'||的雅可比矩阵。 ||权重矩阵||

取决于这两个矩阵规范的运算。如果权重矩阵奇异值很高,则可能会出现爆炸梯度。或较低的奇异值都会使我们的梯度消失。

我们对激活矩阵导数<= 0.25(Sigmoid)/ 1(tanh&Relu)的理解相同。数字越低,乘积就越低。 问题:

在RNN中,所有权重矩阵都相同。所以它应该一直给我们一个爆炸/消失的梯度吗?无论我们采取什么。

为什么不呢?

0 个答案:

没有答案