我正在处理一个不平衡的类分类问题,其中我的不平衡比率为0:1 = 717.26:1。我尝试了许多模型,发现GBM最适合我的情况。
我碰到一篇研究论文和一篇文章来解决班级失衡问题。
Facing Imbalanced Data Recommendations for the Use of Performance Metrics
Handling Class Imbalance with R and Caret - Caveats when using the AUC
在以上论文和文章中,我发现他们说的是相反的话。
它说:“我们发现,除了 ROC曲线,所有性能指标均被衰减 分配不平衡;在许多情况下,情况非常如此。 Alpha和Kappa措施均受两种方法中偏斜的影响 方向;而F1成绩仅受偏斜影响 在一个方向上。尽管ROC不受偏斜影响, 精确召回曲线表明ROC可能掩盖了不良 性能”,这意味着AUC PR也会受到影响,如图所示
Dan Martin(作者)在文章中表示,不应仅使用AUC ROC选择最佳分类器。处理不平衡的课堂学习时,我们也应该将AUC PR当作图片。
现在我的问题是,如果我认为研究论文的结果是正确的,那将与所提到的论文结果相矛盾。
那么有人可以说出哪个应该被认为是正确的吗?
很抱歉,这个冗长的问题。
谢谢!