如何对不平衡的数据集执行类平衡

时间:2019-04-11 11:26:48

标签: machine-learning nlp

我的数据不平衡,正面评价(90%)比负面评价(10%)多,我应该遵循以下选项。

  1. 在GridsearchCV(培训和CV)和物流算法(培训和测试)中使用class_weight='balanced'
  2. 将数据拆分为训练,简历和测试集,然后通过选择多数类(在我的情况下为+ ve类)对少数类进行过采样。从而使两个班级保持平衡
  3. 欠采样-由于信息丢失而未被考虑。

1 个答案:

答案 0 :(得分:0)

不幸的是,对于自然语言数据,没有很多好的选择。 -一种快速的方法的确是对肯定类别进行低采样,对否定类别进行过度采样,以带来更多的平衡。 -一种更复杂的方法是使用GANs to create more negative examples