我有一个用于回归的CNN,用于拍摄图像并输出浮点数0-10。我的模型运行良好,但是我遇到了数据不平衡的严重问题,使我的模型对几乎所有图像的预测均在6-8之间,但实现了不错的均方误差。我知道人们会根据数据集的不平衡程度对课程进行加权。那么,有没有办法用回归模型做到这一点?如果有帮助,我的输出为浮点型,但是我所有的数据都在0-10范围内以0.5为间隔,因此大约有20个不同的类。这是我的数据标签的分布。
我了解还有其他方法,例如:
有什么建议吗?谢谢。
答案 0 :(得分:1)
您的数据最初可能代表了回归问题,但是将其分为20组后,您正在针对 20类分类问题训练模型。因此,您应该这样对待它,并寻找解决这种不平衡的方法。最普遍的方法是:
我通常更喜欢第一种方法,因为模型倾向于使用更多的数据来做得更好,但是第三种方法更易于实现,并且不会增加训练的计算成本。
答案 1 :(得分:1)
一种流行的过采样技术是SMOTE。
关于优化其他度量,一种选择是优化权重与类表示的倒数成比例的加权损失。