RNN的状态归一化

时间:2016-02-10 18:22:28

标签: python-2.7 neural-network tensorflow lstm recurrent-neural-network

也许这个问题更好地提出了计算机科学或交叉验证?

我开始使用LSTM处理任意长度的序列和我遇到的一个问题并且我没有看到解决的问题,我的网络似乎已经开发了几个参数线性增长(也许作为时间的衡量标准?)。

这个问题的一个明显问题是,训练数据的长度为x,因此网络合理地增加此参数直到tilmestep x。但在那之后,网络将最终纳入NAN,因为价值变得过于极端。

有没有人读过有关状态稳定性随时间推移正常化的事情?

我们非常感谢任何建议。

1 个答案:

答案 0 :(得分:0)

创意#1:渐变剪裁通常应用于RNN。以下是实施示例:How to effectively apply gradient clipping in tensor flow?

创意#2:使用Recurrent Batch Normalization (arXiv)Batch Normalization

以下是批量标准化LSTM单元格的Tensorflow实现:https://github.com/OlavHN/bnlstm/blob/master/lstm.py

此实现在此处的文章中进行了解释:Batch normalized LSTM for Tensorflow