学习失衡问题-样本不足与验证

时间:2019-07-10 15:58:25

标签: python keras

我正在接受三个班级的培训,其中一个占多数的班级占80%,另外两个班级甚至占一半。我能够使用欠采样/过采样技术训练模型,从而获得67%的验证精度,这对我来说已经相当不错了。问题在于,这种性能仅出现在平衡的验证数据上,一旦我用不平衡的数据对样本进行测试,似乎就偏向于类预测。我也尝试过使用加权损失函数,但对样本不足​​也没有任何喜悦。有没有什么好的方法可以确保验证性能转换?我曾尝试使用auroc成功验证模型,但是强大的性能仅出现在平衡的验证数据中。

我尝试过的重采样方法:SMOTE过采样和随机欠采样。

1 个答案:

答案 0 :(得分:0)

如果我理解正确,可能是您正在寻找不平衡数据集上的性能指标和更好的分类结果。

在不平衡的数据集通常通常较高且具有误导性和少数类别的情况下,仅使用准确性来衡量性能就可以完全忽略,而应使用f1-score,精度/召回分数。

在我的不平衡数据集项目上,我使用了SMOTE采样方法以及K-fold交叉验证。

交叉验证技术可确保模型从数据中获取正确的模式,并且不会产生过多的噪声。

参考文献: What is the correct procedure to split the Data sets for classification problem?

相关问题