我有一个非常不平衡的数据集,其中多数类占数据的98%,少数类占数据的2%。我已经深入研究了这一点,尝试了各种处理这种不平衡的方法,其中包括改变与分类真正的假性相关的成本,而不是对真正的否定性进行分类。
话虽如此,我也在尝试平衡数据集的方法。我目前正在对数据进行欠采样,从较大的类中随机选择n,以便两个类在新数据集中相等。当我使用交叉验证(例如ROC-AUC,Matthews Correlation Coefficient)拟合模型并针对该数据集运行分类度量时,我通常会得到很好的结果。但是,当我针对整个数据集运行它们时,使用平衡数据集上的模型,我收到了可怕的结果。
我的问题是,我应该如何比较欠采样数据的结果?