Question

为什么要使用损失函数的梯度来更新神经网络的权重和偏差？

例如：

new_weight = old_weight - learning_rate * gradient

换句话说，梯度如何帮助我们正确地更新权重和偏差。

Answer 1

这是一个简单的简化：将梯度的多维导数压缩为“单个结构”。派生变量告诉您，哪里是本地更改。渐变告诉您正在考虑的所有尺寸中的局部变化。

考虑3维情况：我们的世界。图片您正在爬山。假设您的视线限制在3米以内。您的目标是达到顶峰。

您从一个角度出发，环顾四周。当您从方向上的位置看到3米时，便选择去往斜坡更陡峭的地方。环顾四周的动作是计算坡度并校正速度。

在您的方程式中，请记住这是一个总体示例，您说的是：“嗯，我第一次检查方向是124度，现在看坡度，我的方向应该是10度。现在我应该走哪个方向“。

learning rate或方程式是一个系数，您可以将其解释为“摩擦”或“信任”：您不想一次改变114度的方向，而是想要更改关于新措施的规模。您检测到新方向应比当前方向少114度（124-10）。因此，如果学习率较低，那么新方向的影响将小于学习率较高时的影响。

此示例在多个维度上得到了概括。