应用错误收集

Hochreiter在其1997年的开创性LSTM论文中提出了反向传播版本。在计算某个网络权重上的梯度时，他将导数截断，使得仅保留了先前时间步长中的单元状态的导数（附录1）。给定这种近似值，他证明了恒定误差仅在后续单元状态之间传播（附录2）。

从我的角度来看，当忽略单元外部对梯度的贡献时会发生错误。因此，网络权重会更新并显示错误。在本文中，没有对错误的估计。为什么Hochreiter会手动取消对梯度的某些贡献并为此没有依据？被忽略的梯度部分对学习LSTM至关重要吗？