标签: optimization recurrent-neural-network
我们知道 (损耗/初始层权重的导数)= || (激活矩阵)'||的雅可比矩阵。 ||权重矩阵||
取决于这两个矩阵规范的运算。如果权重矩阵奇异值很高,则可能会出现爆炸梯度。或较低的奇异值都会使我们的梯度消失。
我们对激活矩阵导数<= 0.25(Sigmoid)/ 1(tanh&Relu)的理解相同。数字越低,乘积就越低。 问题:
在RNN中,所有权重矩阵都相同。所以它应该一直给我们一个爆炸/消失的梯度吗?无论我们采取什么。
为什么不呢?