班级权重与欠采样/过采样

时间:2019-04-12 18:44:04

标签: python scikit-learn classification imblearn

在不平衡分类中(使用scikit-learn),例如,将平衡类(即将class_weight设置为“ balanced”)与SMOTE进行过采样有什么区别? 一个人对另一个人的预期影响是什么?

1 个答案:

答案 0 :(得分:1)

类权重通过对具有更多(或更少)权重的类给予更多(或更少)惩罚来直接修改损失函数。实际上,通过故意偏向模型以支持对较高权重类别(少数类别)的更准确的预测,基本上是牺牲了一些预测较低权重类别(对于不平衡数据集的多数类别)的能力。

过采样和欠采样方法本质上也赋予了特定的类更多的权重(重复的观察重复了对那些特定观察的惩罚,使它们在模型拟合中具有更大的影响力),但是由于通常在训练中会发生数据分裂,因此也会产生稍微不同的结果。

请参阅https://datascience.stackexchange.com/questions/52627/why-class-weight-is-outperforming-oversampling