我正在尝试使用R上的rpart包在数据集上构建二进制分类树,但是该模型上实现的总体准确性太高(99.8%?),并且树很大且有很多分裂。
这是否表明模型过度拟合?最小的成本复杂性修剪不会导致修剪树与cp = 0时的完全生长树有很大不同。
如果是,这是否表明数据集可能不平衡,因此我应该使用SMOTE对少数族裔类别(〜15%)进行过度采样?
然后,如何从CART模型的结果中确定数据集是否不平衡?
最后,可以肯定地说,在使用SMOTE平衡不平衡的数据集时,减小数据集的大小是合理的牺牲吗?
很抱歉有很多问题,非常感谢您的协助。