Python - 如何在使用分类机制之前平衡类?

时间:2018-04-30 01:31:38

标签: python machine-learning

我有一个包含不平衡类的数据集。使用" sklearn.StratifiedKFold"分割数据然后用各种分类方法进行测试。结果并不好,可能是因为课程不平衡。

我没有找到用于平衡以前类的库或方法。一些帮助?非常感谢你。

1 个答案:

答案 0 :(得分:-1)

这是一个很好的答案和教程: elitedatascience.com

技术解释: 1.上升少数民族阶级 上采样是随机复制少数群体观察的过程,以加强其信号。

这样做有几种启发式方法,但最常见的方法是简单地重新取样。

  • 首先,我们将每个类的观察结果分成不同的DataFrame。
  • 接下来,我们将使用替换重新取样少数类,设置样本数以匹配多数类的样本数。
  • 最后,我们将上采样的少数类DataFrame与原始的多数类DataFrame结合起来。

    1. 羽样少数类 下采样涉及从大多数类中随机删除观测值,以防止其信号主导学习算法。

最常见的启发式方法是重新取样而无需替换。 该过程类似于上采样。以下是步骤:

  • 首先,我们将每个班级的观察结果分开 DataFrames。
    • 接下来,我们将重新取样多数类而不进行替换,将样本数设置为与少数类相匹配。
    • 最后,我们将下采样的多数类DataFrame与原始的少数类DataFrame结合起来。