LSTM中截断的反向传播,梯度值错误

时间:2018-06-20 19:49:57

标签: lstm backpropagation rnn

Hochreiter在其1997年的开创性LSTM论文中提出了反向传播版本。在计算某个网络权重上的梯度时,他将导数截断,使得仅保留了先前时间步长中的单元状态的导数(附录1)。给定这种近似值,他证明了恒定误差仅在后续单元状态之间传播(附录2)。

从我的角度来看,当忽略单元外部对梯度的贡献时会发生错误。因此,网络权重会更新并显示错误。在本文中,没有对错误的估计。为什么Hochreiter会手动取消对梯度的某些贡献并为此没有依据? 被忽略的梯度部分对学习LSTM至关重要吗?

0 个答案:

没有答案