为什么要使用损失函数的梯度来更新神经网络的权重和偏差?
例如:
new_weight = old_weight - learning_rate * gradient
换句话说,梯度如何帮助我们正确地更新权重和偏差。
答案 0 :(得分:0)
这是一个简单的简化:将梯度的多维导数压缩为“单个结构”。派生变量告诉您,哪里是本地更改。 渐变告诉您正在考虑的所有尺寸中的局部变化。
考虑3维情况:我们的世界。图片您正在爬山。假设您的视线限制在3米以内。您的目标是达到顶峰。
您从一个角度出发,环顾四周。当您从方向上的位置看到3米时,便选择去往斜坡更陡峭的地方。 环顾四周的动作是计算坡度并校正速度。
在您的方程式中,请记住这是一个总体示例,您说的是:“嗯,我第一次检查方向是124度,现在看坡度,我的方向应该是10度。现在我应该走哪个方向“。
learning rate
或方程式是一个系数,您可以将其解释为“摩擦”或“信任”:您不想一次改变114度的方向,而是想要更改关于新措施的规模。
您检测到新方向应比当前方向少114度(124-10)。因此,如果学习率较低,那么新方向的影响将小于学习率较高时的影响。
此示例在多个维度上得到了概括。