应用错误收集

我有一个非常不平衡的数据集，其中多数类占数据的98％，少数类占数据的2％。我已经深入研究了这一点，尝试了各种处理这种不平衡的方法，其中包括改变与分类真正的假性相关的成本，而不是对真正的否定性进行分类。

话虽如此，我也在尝试平衡数据集的方法。我目前正在对数据进行欠采样，从较大的类中随机选择n，以便两个类在新数据集中相等。当我使用交叉验证（例如ROC-AUC，Matthews Correlation Coefficient）拟合模型并针对该数据集运行分类度量时，我通常会得到很好的结果。但是，当我针对整个数据集运行它们时，使用平衡数据集上的模型，我收到了可怕的结果。

我的问题是，我应该如何比较欠采样数据的结果？

比较欠采样数据的结果

0 个答案: