用于多类分类的AUC

时间:2018-08-26 18:30:29

标签: machine-learning roc auc multiclass-classification

让我们假设我们有3类分类问题,并且我们的数据高度不平衡。假设在第1类中,我们有185个数据点,在第2199类中和在3720中。

要计算一个多类问题的AUC,可以使用以下公式编写的宏平均值(对每个标签的分类给予同等的权重)和微平均值方法(将标签指标矩阵的每个元素视为二进制预测)。 scikit-learn tutorial

对于这种不平衡的数据集,应该使用AUC的微观平均还是宏观平均?

我不确定,因为当我们有一个如下所示的混淆矩阵时,我得到的微平均AUC为0.76,而宏观平均AUC为0.55。

enter image description here

1 个答案:

答案 0 :(得分:1)

由于您拥有一类数据点,其中大多数数据点都以较高的精度分类,因此使用微平均计算的总体精度将高于使用宏平均计算的精度。

在这里,P1 = 12/185 = 0.06486486,       P2 = 11/199 = 0.05527638,       P3 = 670/720 = 0.9305556

具有宏平均值=(P1 + P2 + P3)/ 3 = 0.3502323的总体精度,远低于具有微平均值=(12 + 11 + 670)/(185 + 199 + 720)=的总体精度0.6277174。

对于AUC同样如此。