我们如何在时间序列模型中选择最佳数量的自回归项以避免过度拟合

时间:2018-06-24 17:56:00

标签: time-series

要找到最佳的神经网络自动回归模型,以预测具有180个月观察结果的系列的未来值,我在R中使用Forecast软件包绘制了系列的ACF和PACF,如下所示。  enter image description here

根据PACF图,我决定使用nnatar(p,P)函数在我的模型中具有2个非季节性(p = 2)和3个季节性(P = 3)项。下图显示了拟合值与观察值的拟合值(R2 = 0.56),以及下一个12个月CI为80%和95%的预测值。
enter image description here

我故意不加任何逻辑地将非季节性项从2增加到10,只是为了将结果与以前的模型进行比较。在这种情况下,生成的图如下所示,显示的拟合值非常好地拟合到观测值(R2 = 0.99),并且预测值的置信区间也很窄。 enter image description here

我的问题是,是否应该基于PACF图来选择模型预测变量(季节性和非季节性)的数量,如何在增加输入滞后的同时判断如何选择最佳模型将增加模型R2。我担心模型过度适合第二种模型。我确信我的系列的行为不能完全通过其滞后来描述。因此,肯定会有其他一些外生变量可能对该序列产生影响,但是在此模型中,我只想考虑序列滞后效应。因此,我认为第一个模型可能是更好的选择,因为它仅描述了56%的方差,而第二个模型则描述了不可靠的99%! 我不确定我的选择...。请帮助我,哪种情况更好。

0 个答案:

没有答案