数据不平衡,回归树和SMOTE过采样

时间:2018-11-05 15:22:28

标签: tree classification rpart oversampling

我正在尝试使用R上的rpart包在数据集上构建二进制分类树,但是该模型上实现的总体准确性太高(99.8%?),并且树很大且有很多分裂。

这是否表明模型过度拟合?最小的成本复杂性修剪不会导致修剪树与cp = 0时的完全生长树有很大不同。

如果是,这是否表明数据集可能不平衡,因此我应该使用SMOTE对少数族裔类别(〜15%)进行过度采样?

然后,如何从CART模型的结果中确定数据集是否不平衡?

最后,可以肯定地说,在使用SMOTE平衡不平衡的数据集时,减小数据集的大小是合理的牺牲吗?

很抱歉有很多问题,非常感谢您的协助。

0 个答案:

没有答案