标签: lstm backpropagation rnn
Hochreiter在其1997年的开创性LSTM论文中提出了反向传播版本。在计算某个网络权重上的梯度时,他将导数截断,使得仅保留了先前时间步长中的单元状态的导数(附录1)。给定这种近似值,他证明了恒定误差仅在后续单元状态之间传播(附录2)。
从我的角度来看,当忽略单元外部对梯度的贡献时会发生错误。因此,网络权重会更新并显示错误。在本文中,没有对错误的估计。为什么Hochreiter会手动取消对梯度的某些贡献并为此没有依据? 被忽略的梯度部分对学习LSTM至关重要吗?