在平衡数据集中具有高AUC和低精度的原因

时间:2016-07-15 04:33:44

标签: machine-learning auc

给定平衡数据集(两个类的大小相同),将其拟合到SVM模型中我产生高AUC值(~0.9)但精度低(~0.5)。

我完全不知道为什么会发生这种情况,有人能为我解释这个案子吗?

4 个答案:

答案 0 :(得分:1)

我猜你在计算 roc 曲线时错过了正确的课程...
这将解释准确度和(错误计算) AUC

  

很容易看出AUC在用于比较两者时会产生误导   分类器,如果他们的ROC曲线交叉。分类器A可以产生a   AUC高于B,而B对大多数人的表现更好   您可以实际使用分类器的阈值。事实上   实证研究表明,中华民国确实非常普遍   要交叉的常见分类器的曲线。还有更深层次的原因   为什么AUC是不连贯的,因此是一个不恰当的措施(见   以下参考资料)。

http://sandeeptata.blogspot.com/2015/04/on-dangers-of-auc.html

答案 1 :(得分:1)

我最近偶然发现了同样的问题。这是我为自己想出来的 - 让我知道我是不是错了。

为了更好地理解为什么ROC曲线下面积(AUC)可能很高而同时精度很低,让我们快速概括这些术语的含义。

接收者 - 运营商特征(ROC)将误报率(FPR)与真实正率(TPR)相关联。

TPR: number of true positives / number of times the prediction was positive
FPR: number of false positives / number of times the prediction was negative

通过计算TPR和FPR来计算分类器的变化预测截止值(“决策阈值”),即用于确定观测值是否属于的标量,创建ROC曲线(您已经知道)一类或另一类:

if score_function(observation) <= cutoff: 
    observation belongs to the "negative" class A
else:           
    observation belongs to the "positive" class B

得到的曲线下面的区域称为AUC。它表示您的分类器是否有可以有效识别正面(或B类)的配置。

现在,你可以注意到的一点是,整个ROC分析只涉及“正面” - 无论是真还是假(分别是TPR和FPR)。真正的负面率(TNR)和假负面率(FNR)完全被忽略了。

另一方面,

准确度被定义为所有正确标记的案例与案件总数的比率:

accuracy = (TP + TN)/(Total number of cases)

还有一点要提到的是,当您计算该分类器的准确度时,分类器的截止值通常是固定的。 (通常,如果score_function的结果代表概率,则此截止值固定为0.5。)

那么如果AUC很大而同时精度很低,怎么可能呢?如果你的分类器在阳性等级(高AUC)上达到良好的性能,这可能会发生高假阴性率(或低真阴性)的成本。

为什么训练过程导致分类器具有如此差的预测性能的问题是不同的,并且特定于您的问题/数据和您使用的分类方法。

总之,ROC分析告诉您有关正类的样本与其他类的分离程度如何,而预测准确性暗示了分类器的实际性能。

答案 2 :(得分:1)

对这种行为的另一个简单解释是,您的模型实际上非常好 - 只是它进行二进制预测的最终阈值很差。

我在二值图像分类任务中使用卷积神经网络遇到了这个问题。考虑例如,您有 4 个带有标签 0,0,1,1 的样本。假设您的模型为这四个样本创建连续预测,例如:0.7、0.75、0.9 和 0.95。

我们认为这是一个很好的模型,因为高值 (> 0.8) 预测第 1 类,低值 (< 0.8) 预测第 0 类。因此,ROC-AUC 将为 1。注意我如何使用阈值0.8。但是,如果您对这些预测使用固定且选择不当的阈值,例如 0.5,这是我们有时强加于模型输出的阈值,那么所有 4 个样本预测都将是 1 类,从而导致 50% 的准确度。< /p>

请注意,大多数模型优化不是为了准确性,而是为了某种损失函数。在我的 CNN 中,仅训练几个 epoch 就解决了这个问题。

在将连续模型输出转换为二元预测时,请确保您知道自己在做什么。如果您不知道对给定的 ROC 曲线使用什么阈值,请查看 Youden 指数或找到代表 ROC 曲线中“最左上角”点的阈值。

答案 3 :(得分:0)

如果这每次都发生,则可能是您的模型不正确。 从内核开始,您需要更改并尝试使用新集合的模型。 每次查看混淆矩阵,并检查TN和TP区域。该模型应该不足以检测其中之一。