应用错误收集

是的，当时仅更新一个重量可能会导致每次减少错误值，但在使用NN的实际解决方案中进行此类更新通常是不可行的。今天的大多数架构通常都有~10 ^ 6个参数，因此每个参数的一个纪元可以持续很长时间。此外 - 由于反向传播的性质 - 你通常必须计算不同导数的负载，以便计算相对于给定参数的导数 - 因此在使用这种方法时你将浪费大量的计算。

但是你提到的这种现象很久以前就已经被注意到，并且有一些方法可以解决它。有两个最常见的问题：

协方差移位： 当给定图层的误差和重量更新强烈依赖于前一层的输出时，所以当您更新它时 - 结果在下一层可能会有所不同。目前处理此问题的最常见方法是Batch normalization。
Nolinear函数与线性差异： 当您考虑BP时它很常见但衍生物是线性算子，可能会在梯度下降中产生许多问题。最直观的例子是，如果您将输入乘以常数，那么每个导数也将乘以相同的数字。这可能会导致很多问题，但最近的大多数学习方法在处理它时都做得很好。

关于BPTT我强烈推荐Geoffrey Hinton关于ANN的课程，尤其是video。

神经网络支持传播

1 个答案: