在有监督的多类分类中,为什么使用宏观F1得分而不是平衡准确度?

时间:2016-03-08 21:19:08

标签: machine-learning supervised-learning

假设我有一个3类问题,我想构建一个可以根据一组功能区分类的分类器。我想根据它区分3个类的能力来评估模型。

从我的阅读中,听起来像宏F1得分是用于评估多类问题的分类器的常用度量,其中针对每个类计算F1得分,然后将这些F1得分的未加权平均值用作{{1} }。

在其他文献中,我已经看到了在多类问题上使用的平衡准确度,其中计算了每个类的准确度,然后将这些精度的未加权平均值用作macro F1 score

为什么宏观F1得分比平衡准确度更受青睐?

在平衡准确度<&lt;&lt; 0.5告诉我们模型的表现比偶然性差?

我们如何以与平衡准确度相同的方式解释F1得分 - 什么阈值表明分类器的表现好于/差于偶然?

2 个答案:

答案 0 :(得分:0)

在多级分类中,不平衡效应更容易扭曲典型的性能指标。一些非常有利于阶级不平衡的绩效指标是: - 科恩的Kappa(https://en.wikipedia.org/wiki/Cohen's_kappa) - 跨类的几何平均值(而不是aritmetic mean)

两者都可以轻松适应多级分类。

答案 1 :(得分:0)

在我看来,F1得分是基于精确度和召回率,这可以适用于更多情况。例如,阴性样本远小于阳性样本。