应用错误收集

时间：2019-04-12 18:44:04

标签： python scikit-learn classification imblearn

在不平衡分类中（使用scikit-learn），例如，将平衡类（即将class_weight设置为“ balanced”）与SMOTE进行过采样有什么区别？一个人对另一个人的预期影响是什么？

答案 0 :(得分：1)

类权重通过对具有更多（或更少）权重的类给予更多（或更少）惩罚来直接修改损失函数。实际上，通过故意偏向模型以支持对较高权重类别（少数类别）的更准确的预测，基本上是牺牲了一些预测较低权重类别（对于不平衡数据集的多数类别）的能力。

过采样和欠采样方法本质上也赋予了特定的类更多的权重（重复的观察重复了对那些特定观察的惩罚，使它们在模型拟合中具有更大的影响力），但是由于通常在训练中会发生数据分裂，因此也会产生稍微不同的结果。