computer-vision - 数据不平衡时如何进行多类分类

我面临着一个多类别的分类任务，每个类别的平均数量为1k，并且数据不平衡，有一个类别的样本为1.5k，一个类别的样本为300，我微调了CNN模型，但似乎在样本量较少的班级中可能过拟合，每个班级的训练集精度都在0.99附近。但是在测试集中，最大类的准确度约为0.95，我认为这不是过拟合的。在300个样本的类别中，准确性仅约0.65，这是过拟合的。我该如何处理这种情况？我也尝试过ohem和焦距损失，但是它没有用，也许是因为焦距损失和ohem是因为模型造成的火车设置中的低精度而无法适应火车中的困难示例？我认为，我应该在原始数据集中添加更多的数据扩充，或者为了最大程度地平衡数据而降低最大类的采样率？你们有什么建议吗？

数据不平衡时如何进行多类分类

0 个答案: