Question

是否有一种很好的方法可以对不连续的数据集进行时间序列回归，例如每个季度从经销商处购买的汽车数量（例如，出于某种原因，我想从数据集中排除某些季度来确定销售基准）免费促销）？

模型拟合（例如SARIMAX（）。fit（））必须考虑到x标记在给定数据集中分布不均匀

回归模型必须计算缺失数据点的值（插值）

有Holt-Winters，SARIMA等，但不适用于此类情况。

建议，修改后的库或子例程非常感谢

样本数据集：

x = np.array([2001Q3, 2001Q4, 2002Q2, 2002Q3, 2002Q4, 2003Q3, 2004Q1, 2004Q3, 2005Q1, 2005Q3,2006Q2, 2006Q3, 2006Q4, 2007Q1, 2007Q4])
y = np.array([24, 20, 27, 29, 26, 32, 34, 30, 32, 37, 35, 39, 41, 37, 39])

有一些标准方法，例如：

from scipy import optimize
from scipy import interpolate

一种方法是为缺少的数据点（四分之一）准备一个具有计算所得数字的数组，然后应用SARIMAX.fit，但我想知道是否还有一种更优雅的方法。

生成的模型必须估计2001Q3到2007Q4的所有季度，包括缺失的季度

也。对于类似海锯的时间序列（具有趋势和季节性），线性插值可能无法很好地工作，尤其是当差距大于1个缺失数据点时（如在样本数据集中）

时间序列回归-非连续数据集

0 个答案: