逻辑回归中不平衡数据集的权重参数

时间:2017-11-21 13:04:57

标签: r logistic-regression

我对如何为不平衡数据集选择正确的权重参数感到困惑。我的数据是二进制变量,只有大约4%的数据是' 1'并且96%是' 0'我想使用逻辑回归来指定权重。

在此链接中:https://stats.stackexchange.com/questions/164693/adding-weights-to-logistic-regression-for-imbalanced-data 这个人似乎说如果我们想要使用10%的0和100%的1,那么来自R的glm()函数中的权重对于y = 0的观察值应该具有值10和1表示y = 1的观测值。我不明白这些数字是如何选择的,对我来说,重量应该是少数类的样本增加(过采样方法,而建议方法似乎是下采样,我不明白怎么能这可以通过权重参数来完成。

我正在使用glm()函数,并且想要考虑所有的观察结果,但是对于1的观察计算得更多(让我们说不失一般性10倍)。 / p>

非常感谢你的帮助!

0 个答案:

没有答案