是否有一种很好的方法可以对不连续的数据集进行时间序列回归,例如每个季度从经销商处购买的汽车数量(例如,出于某种原因,我想从数据集中排除某些季度来确定销售基准)免费促销)?
模型拟合(例如SARIMAX()。fit())必须考虑到x标记在给定数据集中分布不均匀
回归模型必须计算缺失数据点的值(插值)
有Holt-Winters,SARIMA等,但不适用于此类情况。
建议,修改后的库或子例程非常感谢
样本数据集:
x = np.array([2001Q3, 2001Q4, 2002Q2, 2002Q3, 2002Q4, 2003Q3, 2004Q1, 2004Q3, 2005Q1, 2005Q3,2006Q2, 2006Q3, 2006Q4, 2007Q1, 2007Q4])
y = np.array([24, 20, 27, 29, 26, 32, 34, 30, 32, 37, 35, 39, 41, 37, 39])
有一些标准方法,例如:
from scipy import optimize
from scipy import interpolate
一种方法是为缺少的数据点(四分之一)准备一个具有计算所得数字的数组,然后应用SARIMAX.fit,但我想知道是否还有一种更优雅的方法。
生成的模型必须估计2001Q3到2007Q4的所有季度,包括缺失的季度
也。对于类似海锯的时间序列(具有趋势和季节性),线性插值可能无法很好地工作,尤其是当差距大于1个缺失数据点时(如在样本数据集中)