标签: python model classification oversampling
目标属性分布当前如下:
mydata.groupBy("Churn").count().show() +-----+-----+ |Churn|count| +-----+-----+ | 1| 483| | 0| 2850| +-----+-----+
我的问题是:
过采样的方法,例如:手动,smote,adasyn 将要使用可用数据来创建新数据点?
如果我们使用此类数据来训练分类模型,那么它会不会过拟合?
答案 0 :(得分:0)
我的问题是,任何过采样方法(手动,污点,adasyn)都会使用可用数据来创建新数据点。
SMOTE(合成少数族裔过采样技术)将进入第三步。这是从数据集中创建新的少数派类别的过程。
以下提到了SMOTE中的过程:
所以,这比过采样还更聪明。
如果我们使用此类数据来构建分类模型,那么它会不会过拟合?
正确答案应该是 PROBABLY 。试试看!
这就是为什么我们使用测试集和交叉验证来尝试了解该模型是否适用于看不见的数据的原因!