我正在为时间序列预测训练LSTM模型。这是火车损失图。
这是一个一步一步的预测案例,因此我正在使用滚动窗口来训练模型。在这里,我们有26个预测步骤(对于每个步骤,我都会再次训练模型)。如您所见,在第25〜27个时期之后,训练损失突然变得如此嘈杂。为什么我们有这种行为?
Ps。我正在使用具有tanh
激活功能的LSTM。另外,我使用了L1
和L2
正则化,但是行为是相同的。 LSTM
之后的层是激活了Dense
的{{1}}层,I linear
应用于输入数据,优化器为MinMaxScaler
。我还在验证数据集中看到了相同的行为。
答案 0 :(得分:1)
您是否正在使用渐变剪裁(如果不是这样的话)会有所帮助,因为渐变值会变得很小,很小或很大,因此很难进一步改进模型以更好地学习。递归层可能已经创建了此损失谷,您可能会因为梯度太大而错过该损失谷。