应用错误收集

我正在尝试使用R上的rpart包在数据集上构建二进制分类树，但是该模型上实现的总体准确性太高（99.8％？），并且树很大且有很多分裂。

这是否表明模型过度拟合？最小的成本复杂性修剪不会导致修剪树与cp = 0时的完全生长树有很大不同。

如果是，这是否表明数据集可能不平衡，因此我应该使用SMOTE对少数族裔类别（〜15％）进行过度采样？

然后，如何从CART模型的结果中确定数据集是否不平衡？

最后，可以肯定地说，在使用SMOTE平衡不平衡的数据集时，减小数据集的大小是合理的牺牲吗？

很抱歉有很多问题，非常感谢您的协助。