如何在多类文本分类问题中平衡数据?

时间:2019-01-17 09:22:59

标签: machine-learning classification text-classification

我有29个输出类的多类文本分类问题。这是训练数据集中29个班级的记录分布。

我想知道如何使用上采样来平衡数据?对于上采样,是否应该将所有类上采样到1337行?

2 个答案:

答案 0 :(得分:2)

您不必上采样数据大小。您可以使用加权损失函数来平衡模型的动机,以正确分类所有类别(相同的影响)。

例如,样本量最小的类别(“输送安全”)的损失为L*1337/45,样本量最大的类别的损失为L*1337/1337=L

答案 1 :(得分:2)

上采样(或过采样)可能会产生更平衡的数据集,但由于少数类示例(Kotsiantis et al.)的重复,因此也会鼓励过拟合

user2974951所述,SMOTE是一种基于现有数据生成样本的方法,可减少上述过度拟合少数族裔的风险(Chawla et al.与偏向调整相比,使用SMOTE表现出显着改善)

或者,您可以尝试选择一种学习算法,该算法不太容易受到基于不平衡的偏差的影响(例如,SVM可以很好地处理不平衡数据Sun et al.)。

如果不可能,Liu et al.提出的 term-term加权或Mark.F提到的类似加权方法可以帮助提高在不平衡训练中的预测准确性。数据集。

祝你好运!