具有Co变量的时间序列模型应比不具有Co变量的时间序列模型具有更高的准确性

时间:2019-12-19 04:04:06

标签: time-series arima

我建立了一个时间序列模型,该模型具有对作物科学数据的每月观测值(2012年至2018年每月观测值),该数据具有每年的季节性。购买农作物保护产品的农民还取决于降雨时间。同样的产品在11月至12月的1月也达到了峰值。

我建立了一个SARIMA模型(无协变量)和SARIMAX模型(有协变量)。协变量为平均降雨量,总降雨量,平均温度,最低温度,最高温度,平均湿度等

这里的主要问题是,我的SARIMAX模型应该比SARIMA模型具有更好的准确性,因为我们有协变量,这有助于模型更好地进行预测。 我的假设正确吗?

目前,SARIMA在这里为我提供了更好的准确性。

1 个答案:

答案 0 :(得分:0)

我想您使用MLE来估计SARIMA和SARIMAX。但是我不确定您使用的精度是多少,所以我猜是RMSE。

MLE将使可能性最大化,因此从数学上讲,对于相同的样本,SARIMAX将给您比SARIMA更高的可能性(无约束的优化总是比受约束的优化提供更好的结果)。

但是,它不能保证更好的RMSE,因为RMSE是线性残差的平方,并且在SARIMA(由于MA部分)的情况下,与对数似然率不完全相关,如线性回归。

因此,对于SARIMAX来说,具有较高的对数似然率,同时具有较高的对数均方根误差(RMSE)(和较低的R平方)是完全正常的。在这种情况下,您的SARIMAX会过拟合,而X似乎在预测y方面并不是很有用。

您可能还需要检查其他一些事情:

  • 估计是否使用相同的样本集?如果X中缺少值,则估计SARIMAX时的估计可能会比SARIMA减少更多的观察
  • 信息标准:AIC和BIC会针对模型之间的额外程度自由度进行调整,并更好地告诉您模型是否真的过拟合,或者估计和/或数据可能有问题