假设我有一个3类问题,我想构建一个可以根据一组功能区分类的分类器。我想根据它区分3个类的能力来评估模型。
从我的阅读中,听起来像宏F1得分是用于评估多类问题的分类器的常用度量,其中针对每个类计算F1得分,然后将这些F1得分的未加权平均值用作{{1} }。
在其他文献中,我已经看到了在多类问题上使用的平衡准确度,其中计算了每个类的准确度,然后将这些精度的未加权平均值用作macro F1 score
。
为什么宏观F1得分比平衡准确度更受青睐?
在平衡准确度<&lt;&lt; 0.5告诉我们模型的表现比偶然性差?
我们如何以与平衡准确度相同的方式解释F1得分 - 什么阈值表明分类器的表现好于/差于偶然?
答案 0 :(得分:0)
在多级分类中,不平衡效应更容易扭曲典型的性能指标。一些非常有利于阶级不平衡的绩效指标是: - 科恩的Kappa(https://en.wikipedia.org/wiki/Cohen's_kappa) - 跨类的几何平均值(而不是aritmetic mean)
两者都可以轻松适应多级分类。
答案 1 :(得分:0)
在我看来,F1得分是基于精确度和召回率,这可以适用于更多情况。例如,阴性样本远小于阳性样本。