LSTM中特定时间段后的噪声火车损耗,用于时间序列预测(Keras)

时间:2019-10-24 14:29:55

标签: python keras time-series lstm loss

我正在为时间序列预测训练LSTM模型。这是火车损失图。

'm

这是一个一步一步的预测案例,因此我正在使用滚动窗口来训练模型。在这里,我们有26个预测步骤(对于每个步骤,我都会再次训练模型)。如您所见,在第25〜27个时期之后,训练损失突然变得如此嘈杂。为什么我们有这种行为?

Ps。我正在使用具有tanh激活功能的LSTM。另外,我使用了L1L2正则化,但是行为是相同的。 LSTM之后的层是激活了Dense的{​​{1}}层,I linear应用于输入数据,优化器为MinMaxScaler。我还在验证数据集中看到了相同的行为。

1 个答案:

答案 0 :(得分:1)

您是否正在使用渐变剪裁(如果不是这样的话)会有所帮助,因为渐变值会变得很小,很小或很大,因此很难进一步改进模型以更好地学习。递归层可能已经创建了此损失谷,您可能会因为梯度太大而错过该损失谷。