为什么我们要在分类问题中最大化AUC?

时间:2017-10-14 06:01:38

标签: machine-learning statistics mathematical-optimization

我想知道为什么我们的目标是在最大限度地提高准确度时最大化AUC?

我认为,除了最大限度提高准确性的主要目标外,AUC还会自动变大。

2 个答案:

答案 0 :(得分:4)

我想我们使用AUC是因为它解释了我们的方法能够独立于阈值分离数据的程度。 对于某些应用程序,我们不希望出现误报或否定。当我们使用准确性时,无论特异性和灵敏度如何,我们都已经在最佳阈值上预先分离数据。 。

答案 1 :(得分:3)

在二进制分类中,精度是某个阈值的单个模型的性能指标,AUC(ROC曲线下的面积)是一系列阈值的一系列模型的性能指标。

感谢这个问题,我在AUC和准确性比较上学到了很多东西。我不认为两者之间存在相关性,我认为这仍然是一个悬而未决的问题。在这个答案的最后,我添加了一些我认为有用的these链接。

准确性失败的一种情况:

示例问题

让我们考虑一个二元分类问题,您可以在 100 样本的数据集上评估模型的性能( 98 0 2 1)。

取出复杂的机器学习模型,用一个愚蠢的系统替换整个系统,无论输入收到什么输入,它总是输出0。 现在的准确度是多少?

Accuracy = Correct predictions/Total predictions = 98/100 = 0.98

我们在“始终0系统上获得了惊人的98%的准确率。

现在,您将系统转换为癌症诊断系统,并开始预测(0 - 无癌症,1 - 癌症)对一组患者。假设会有一些与1类相对应的情况,您仍然可以获得高精度。

尽管准确度很高,但如果在课堂上1(识别患有癌症的患者)没有做好,那么该系统有什么意义呢?

这一观察结果表明,对于每种类型的机器学习问题,准确性并不是一个好的评估指标。以上被称为不平衡类问题,并且存在这种性质的足够实际问题。

至于准确性和AUC的比较,这里有一些我觉得有用的链接,

  1. An introduction to ROC analysis
  2. Area under curve of ROC vs. overall accuracy
  3. Why is AUC higher for a classifier that is less accurate than for one that is more accurate?
  4. What does AUC stand for and what is it?
  5. Understanding ROC curve
  6. ROC vs. Accuracy vs. AROC