python - 学习失衡问题-样本不足与验证

我正在接受三个班级的培训，其中一个占多数的班级占80％，另外两个班级甚至占一半。我能够使用欠采样/过采样技术训练模型，从而获得67％的验证精度，这对我来说已经相当不错了。问题在于，这种性能仅出现在平衡的验证数据上，一旦我用不平衡的数据对样本进行测试，似乎就偏向于类预测。我也尝试过使用加权损失函数，但对样本不足也没有任何喜悦。有没有什么好的方法可以确保验证性能转换？我曾尝试使用auroc成功验证模型，但是强大的性能仅出现在平衡的验证数据中。

我尝试过的重采样方法：SMOTE过采样和随机欠采样。

如果我理解正确，可能是您正在寻找不平衡数据集上的性能指标和更好的分类结果。

在不平衡的数据集通常通常较高且具有误导性和少数类别的情况下，仅使用准确性来衡量性能就可以完全忽略，而应使用f1-score，精度/召回分数。

在我的不平衡数据集项目上，我使用了SMOTE采样方法以及K-fold交叉验证。

交叉验证技术可确保模型从数据中获取正确的模式，并且不会产生过多的噪声。

参考文献： What is the correct procedure to split the Data sets for classification problem?

学习失衡问题-样本不足与验证

1 个答案: