我有29个输出类的多类文本分类问题。这是训练数据集中29个班级的记录分布。
我想知道如何使用上采样来平衡数据?对于上采样,是否应该将所有类上采样到1337行?
答案 0 :(得分:2)
您不必上采样数据大小。您可以使用加权损失函数来平衡模型的动机,以正确分类所有类别(相同的影响)。
例如,样本量最小的类别(“输送安全”)的损失为L*1337/45
,样本量最大的类别的损失为L*1337/1337=L
。
答案 1 :(得分:2)
上采样(或过采样)可能会产生更平衡的数据集,但由于少数类示例(Kotsiantis et al.)的重复,因此也会鼓励过拟合。
如user2974951所述,SMOTE是一种基于现有数据生成样本的方法,可减少上述过度拟合少数族裔的风险(Chawla et al.与偏向调整相比,使用SMOTE表现出显着改善)
或者,您可以尝试选择一种学习算法,该算法不太容易受到基于不平衡的偏差的影响(例如,SVM可以很好地处理不平衡数据Sun et al.)。
如果不可能,Liu et al.提出的
祝你好运!