我正在学习用于训练神经网络的反向传播算法。这有点意义,但仍有一部分我没有。
据我所知,误差导数是根据网络中的所有权重计算的。这导致误差梯度,其维数是网中权重的数量。然后,通过该梯度的负值改变权重,乘以学习率。
这似乎是正确的,但为什么渐变没有标准化? delta矢量长度与梯度矢量长度成正比的原理是什么?
答案 0 :(得分:2)
您无法规范化渐变。实际上在backpropogation你有梯度下降的错误方法。而是规范化和扩展您的输入。然后它会给出误差表面上的比例运动,并且误差表面上的比例运动将使您更快地接近局部或有时全局最小值。 Here您可以看到规范化的解释