应用错误收集

如何对不平衡的数据集执行类平衡

时间：2019-04-11 11:26:48

标签： machine-learning nlp

我的数据不平衡，正面评价（90％）比负面评价（10％）多，我应该遵循以下选项。

在GridsearchCV（培训和CV）和物流算法（培训和测试）中使用class_weight='balanced'
将数据拆分为训练，简历和测试集，然后通过选择多数类（在我的情况下为+ ve类）对少数类进行过采样。从而使两个班级保持平衡
欠采样-由于信息丢失而未被考虑。

1 个答案:

答案 0 :(得分：0)

不幸的是，对于自然语言数据，没有很多好的选择。 -一种快速的方法的确是对肯定类别进行低采样，对否定类别进行过度采样，以带来更多的平衡。 -一种更复杂的方法是使用GANs to create more negative examples。