Statsmodels Logistic回归类不平衡

时间:2015-11-09 09:27:46

标签: python statistics statsmodels

我希望通过类或样本权重重新平衡数据集,对具有0.5%正类的数据集运行逻辑回归。我可以在scikit learn中做到这一点,但它没有提供模型的任何推理统计数据(置信区间,p值,残差分析)。

在statsmodels中可以做到这一点吗?我在statsmodels.discrete.discrete_model.Logit.fit中看不到sample_weights或class_weights参数

谢谢!

1 个答案:

答案 0 :(得分:1)

程序员的回答:

statsmodels Logit和其他离散模型还没有权重。 (*)

GLM二项式通过每次观察成功和不成功试验的次数隐含地定义了病例重量。它还允许通过GLM方差函数来操纵权重,但这尚未得到官方支持和测试。

统计学家/计量经济学家的回答:

推理,标准误差,置信区间,测试等基于随机样本。如果操纵权重,那么这应该影响推论统计。 但是,我从未根据观察到的响应来查看重新平衡数据的问题。通常,这会产生选择偏差。一个快速的互联网搜索显示了几个答案,从重新平衡在Logit中没有正面影响作为替代的惩罚估计。

一种可能性是尝试不同的链接功能,cloglog或其他链接功能具有不对称或更重的尾部,更适合于一个类别或类别中风险较小的数据。

(*)实施权重的一个问题是决定他们对推理的解释。例如,Stata允许3种权重。