过度采样会导致模型过度拟合吗?

时间:2018-09-30 14:31:26

标签: python model classification oversampling

目标属性分布当前如下:

mydata.groupBy("Churn").count().show()

+-----+-----+
|Churn|count|
+-----+-----+
|    1|  483|
|    0| 2850|
+-----+-----+

我的问题是:

  • 过采样的方法,例如:手动,smote,adasyn 将要使用可用数据来创建新数据点?

  • 如果我们使用此类数据来训练分类模型,那么它会不会过拟合?

1 个答案:

答案 0 :(得分:0)

  

我的问题是,任何过采样方法(手动,污点,adasyn)都会使用可用数据来创建新数据点。

  • 数据不平衡问题主要通过三个步骤处理:
    1. 对少数群体进行过度采样。
    2. 对多数阶层进行抽样调查。
    3. 合成新的少数派阶级。

SMOTE(合成少数族裔过采样技术)将进入第三步。这是从数据集中创建新的少数派类别的过程。

以下提到了SMOTE中的过程:

enter image description here

所以,这比过采样还更聪明。

  

如果我们使用此类数据来构建分类模型,那么它会不会过拟合?

正确答案应该是 PROBABLY 。试试看!

这就是为什么我们使用测试集交叉验证来尝试了解该模型是否适用于看不见的数据的原因!