应用错误收集

时间：2019-01-17 09:22:59

标签： machine-learning classification text-classification

我有29个输出类的多类文本分类问题。这是训练数据集中29个班级的记录分布。

我想知道如何使用上采样来平衡数据？对于上采样，是否应该将所有类上采样到1337行？

答案 0 :(得分：2)

您不必上采样数据大小。您可以使用加权损失函数来平衡模型的动机，以正确分类所有类别（相同的影响）。

例如，样本量最小的类别（“输送安全”）的损失为L*1337/45，样本量最大的类别的损失为L*1337/1337=L。

答案 1 :(得分：2)

上采样（或过采样）可能会产生更平衡的数据集，但由于少数类示例（Kotsiantis et al.）的重复，因此也会鼓励过拟合。

如user2974951所述，SMOTE是一种基于现有数据生成样本的方法，可减少上述过度拟合少数族裔的风险（Chawla et al.与偏向调整相比，使用SMOTE表现出显着改善）

或者，您可以尝试选择一种学习算法，该算法不太容易受到基于不平衡的偏差的影响（例如，SVM可以很好地处理不平衡数据Sun et al.）。

如果不可能，Liu et al.提出的 term-term加权或Mark.F提到的类似加权方法可以帮助提高在不平衡训练中的预测准确性。数据集。

祝你好运！