我正在考虑销售人员在一个bakesale的转变,试图看看销售人员在轮班的不同时间内的销售情况是否存在实质性差异。具体来说,我试图评估a)如果个别轮班时间之间的趋势是显着的,那么b)如何相对于其他一些潜在的解释变量排名。
数据集每个销售人员有相同长度的多个班次,除以小时。
E.g。
model = sm.MixedLM.from_formula("Cookies ~ C(Hour) + CustomerArrivals + Oventemp", BakeSaleData, groups=BakeSaleData["Salesperson"])
result = model.fit()
print(result.summary())
Our Q-Q plot for the residuals:
有人在回顾我的研究时告诉我,他的统计数据背景相当大,我的模型中存在很大的自相关性,但我不清楚如何弥补这一点。
我知道在传统的时间序列数据集中,我们可以使用AR(1)和Cochrane-Orcutt来计算自相关项,但这些时间序列计算通常是在有单个时间序列的数据集上。
答案 0 :(得分:0)
statsmodels MixedLM不允许将残差直接关联到随机系数或随机效应之外。
您可以使用statsmodels.GEE,这是一种单向面板数据模型,允许更大范围的相关结构,包括AR(1)。使用族Gaussian,它将类似于MixedLM。然而,它使用估计方程式,其类似于计量经济学中精确识别的GMM,并且GEE默认使用群集鲁棒标准误差。连续相关误差的假设是解释变量是外生的。
这里https://github.com/statsmodels/statsmodels/wiki/Examples#generalized-estimating-equations-gee是GEE的一些笔记本。
与Cochrane-Orcutt或Prais-Winston类似于Stata的标准计量经济学面板数据尚未包含在statsmodels中(尽管某些地方可能存在草稿版本。)