我想知道为什么我们的目标是在最大限度地提高准确度时最大化AUC?
我认为,除了最大限度提高准确性的主要目标外,AUC还会自动变大。
答案 0 :(得分:4)
我想我们使用AUC是因为它解释了我们的方法能够独立于阈值分离数据的程度。 对于某些应用程序,我们不希望出现误报或否定。当我们使用准确性时,无论特异性和灵敏度如何,我们都已经在最佳阈值上预先分离数据。 。
答案 1 :(得分:3)
在二进制分类中,精度是某个阈值的单个模型的性能指标,AUC(ROC曲线下的面积)是一系列阈值的一系列模型的性能指标。
感谢这个问题,我在AUC和准确性比较上学到了很多东西。我不认为两者之间存在相关性,我认为这仍然是一个悬而未决的问题。在这个答案的最后,我添加了一些我认为有用的these链接。
准确性失败的一种情况:
示例问题
让我们考虑一个二元分类问题,您可以在 100 样本的数据集上评估模型的性能( 98 类0
和 2 类1
)。
取出复杂的机器学习模型,用一个愚蠢的系统替换整个系统,无论输入收到什么输入,它总是输出0
。
现在的准确度是多少?
Accuracy = Correct predictions/Total predictions = 98/100 = 0.98
我们在“始终0
”系统上获得了惊人的98%的准确率。
现在,您将系统转换为癌症诊断系统,并开始预测(0
- 无癌症,1
- 癌症)对一组患者。假设会有一些与1
类相对应的情况,您仍然可以获得高精度。
尽管准确度很高,但如果在课堂上1
(识别患有癌症的患者)没有做好,那么该系统有什么意义呢?
这一观察结果表明,对于每种类型的机器学习问题,准确性并不是一个好的评估指标。以上被称为不平衡类问题,并且存在这种性质的足够实际问题。
至于准确性和AUC的比较,这里有一些我觉得有用的链接,