课堂学习失衡

时间:2020-02-28 12:14:41

标签: r machine-learning statistics data-science imbalanced-data

我正在处理一个不平衡的类分类问题,其中我的不平衡比率为0:1 = 717.26:1。我尝试了许多模型,发现GBM最适合我的情况。

我碰到一篇研究论文和一篇文章来解决班级失衡问题。

Facing Imbalanced Data Recommendations for the Use of Performance Metrics

Handling Class Imbalance with R and Caret - Caveats when using the AUC

在以上论文和文章中,我发现他们说的是相反的话。

From research paper

它说:“我们发现,除了 ROC曲线,所有性能指标均被衰减 分配不平衡;在许多情况下,情况非常如此。 Alpha和Kappa措施均受两种方法中偏斜的影响 方向;而F1成绩仅受偏斜影响 在一个方向上。尽管ROC不受偏斜影响, 精确召回曲线表明ROC可能掩盖了不良 性能”,这意味着AUC PR也会受到影响,如图所示

Dan Martin(作者)在文章中表示,不应仅使用AUC ROC选择最佳分类器。处理不平衡的课堂学习时,我们也应该将AUC PR当作图片。

现在我的问题是,如果我认为研究论文的结果是正确的,那将与所提到的论文结果相矛盾。

那么有人可以说出哪个应该被认为是正确的吗?

很抱歉,这个冗长的问题。

谢谢!

0 个答案:

没有答案