应用错误收集

时间：2018-08-26 18:30:29

标签： machine-learning roc auc multiclass-classification

让我们假设我们有3类分类问题，并且我们的数据高度不平衡。假设在第1类中，我们有185个数据点，在第2199类中和在3720中。

要计算一个多类问题的AUC，可以使用以下公式编写的宏平均值（对每个标签的分类给予同等的权重）和微平均值方法（将标签指标矩阵的每个元素视为二进制预测）。 scikit-learn tutorial。

对于这种不平衡的数据集，应该使用AUC的微观平均还是宏观平均？

我不确定，因为当我们有一个如下所示的混淆矩阵时，我得到的微平均AUC为0.76，而宏观平均AUC为0.55。

答案 0 :(得分：1)

由于您拥有一类数据点，其中大多数数据点都以较高的精度分类，因此使用微平均计算的总体精度将高于使用宏平均计算的精度。

在这里，P1 = 12/185 = 0.06486486， P2 = 11/199 = 0.05527638， P3 = 670/720 = 0.9305556

具有宏平均值=（P1 + P2 + P3）/ 3 = 0.3502323的总体精度，远低于具有微平均值=（12 + 11 + 670）/（185 + 199 + 720）=的总体精度0.6277174。

对于AUC同样如此。