标签: imbalanced-data
我有一个数据集,可使用带有不平衡类的插入符号包训练随机森林模型(53、83、64、114、35)。为了解决这个不平衡问题,我在插入符号包中使用了上采样和下采样,其中上采样给出了更好的结果。我的问题是,通过35次观察可以预测班级的准确性。它显示了大约90%的最高精度。我的困惑是如何仅用35个图(较少的信息)就可以提供这么高的准确性,这是因为由于过拟合,因为我们在上采样时将观测值从35复制到了114?如果此方法不合理,是否还有其他方法可以解决此问题?