我使用 statsmodels 来计算 Cook 的距离和 dffits。
特征数:3,样本量:200,000
google colab,statsmodels 版本:0.10.2
model = sm.OLS(Y,sm.add_constant(X))
results = model.fit()
influence = results.get_influence()
cooks_d, p_value = influence.cooks_distance
dffits, dffits_threshold = influence.dffits
我立即得到了 cooks_d,但 dffits 需要很长时间。如果我使用summary_frame(),也需要很长时间。
sm_fr = influence.summary_frame()
有什么建议可以解决这个问题吗?