应用错误收集

我还没有对我在这里提出的数学进行过彻底的检查，所以如果有人在这里看到错误，请纠正我！

无论如何，下面的图像是反向传播的一个非常简单的示例。如您所见，我们对权重W的损失函数L 的梯度（在这种情况下，损失函数非常简单并且效果不佳）感兴趣。 以便根据梯度下降优化器更新权重（还有其他更好的优化器，但是梯度下降是最容易理解的一种，因此建议您仔细阅读）。我想您理解的关键是方框中的第一个方程式，您可以看到您首先使用链式规则，然后总结这样可以为您提供的所有渐变

为进一步理解，我建议您写出所有正向传播的方程式，然后在每一层计算dL / dW和dL / da的链规则。如果进一步分解等式并设置 a = f（z），z = W * X （为了使链式规则更直观；即 dL / dW = dL / da * da / dz * dz / dW ）。还有许多指南可供您阅读以进一步了解。

反向传播，每层不止一个节点

1 个答案: