Question

我们正在尝试评估各种因素（比如 6 个不同的回归变量，比如 X）对特定国家/地区的累积活跃 Covid 病例（目标 Y 变量）的可能影响。我们的最终目标是调查这些因素是否可用于为我们的 Y 目标变量提供更好/更准确的预测。

通过文献调查，我们选择了 ARIMA 模型进行建模/预测。我们的初始目标变量包括从 3 月开始的期间的每日值。从 2020 年 1 月 10 日到 2021 年 1 月 31 日。由于研究期的长度，我们决定对每周累计病例数进行建模，而不是对每日原始值进行建模。我们的一般方法是使用前 30-35 个值（每周值）进行模型拟合，然后使用最后 10-15 个值进行验证。

我们注意到拟合一个简单的 ARIMA 模型（在 R 下使用 auto.arima 和预测包）会产生相当好的校准，但验证效果不佳。我们还注意到：

- auto.arima(weekly_calib,...)
- auto.arima(weekly_calib, xreg=regressors,...)

两者都在验证方面表现不佳。

Arima 拟合（第 1-32 周）和验证（第 33 周及以上） - 红色：简单 ARIMA (0,0,1) 拟合 - 蓝色：使用外部回归器拟合 ARIMA (1,1,0)。黑线表示观测值

后来，我们注意到使用目标变量的滞后值可以在验证方面取得重大改进：

lagged_weekly <- shift(weekly_calib,n=1)
auto.arima(weekly_calib, xreg=lagged_weekly,...)

Arima 拟合（第 1-32 周）和验证（第 33 周及以上） - 红色：简单 ARIMA (0,0,0) 拟合使用建模变量的滞后值作为单个回归量 - 蓝色：ARIMA (1, 0,0) 使用建模变量的滞后值与外部因素相结合作为回归量进行拟合。黑线表示观测值

您对这些结果有何看法？
使用建模变量的滞后值作为 ARIMA 建模的回归量是一种相当常见的方法吗？为什么在这里添加它会提供更好的结果？
将 arima.model（使用我们建模变量的滞后值）与另一个 arima.model（同时使用建模变量的滞后值和回归量的滞后值）进行比较是否公平？< /p>

感谢您的时间。

罗兰。

使用建模变量的滞后值作为回归量拟合 ARIMA 模型？

0 个答案: