当我通读有关选择哪种度量标准的文章时,我发现当数据集不平衡时,PR曲线优于ROC曲线。
例如。给定一个具有类A:50实例,B:200实例和C:50实例的不平衡的多类分类数据集,显然,类B的实例是类A和C的实例的4倍。因此,该模型将倾向于预测B级。因此,A级和C级将具有更高的TN:
但是,精度和召回率都不在乎真实的负数,因此使用PR曲线是一个不错的选择。
模型预测将导致A类和C类的假阳性率很低(这是我们想要的),但真假率也很低(我们不希望看到的),因此只要我们发现数据集不平衡,我们不应该使用ROC曲线。而且由于我们不对不平衡数据集使用ROC曲线,所以拥有微观平均的ROC曲线(用于多类分类)的目的是什么?注意,微观平均ROC是真实阳性率的总和除以错误阳性率的总和。换句话说,每个班级都有权重。