我在vb.net中创建了自己的lstm神经网络。从我所读到的内容来看,网络并不意味着受到爆炸/消失梯度的影响。但是,过了一段时间后,所有渐变都会增加到最大值。更改速率只会影响发生这种情况所需的时间。在lstm网络中是否有任何可能导致爆炸的梯度?
我正在使用具有动量的RMSProp来更新序列大小在32到64之间的权重。还包括训练数据在[0,1]范围内的窥孔连接器。
我的论文基于LSTM:太空搜索奥德赛
答案 0 :(得分:0)
我在pytorch中遇到了与LSTM相同的问题。它有助于剪切渐变。 此外,您可以尝试更改学习率。