应用错误收集

时间：2016-03-08 21:19:08

标签： machine-learning supervised-learning

假设我有一个3类问题，我想构建一个可以根据一组功能区分类的分类器。我想根据它区分3个类的能力来评估模型。

从我的阅读中，听起来像宏F1得分是用于评估多类问题的分类器的常用度量，其中针对每个类计算F1得分，然后将这些F1得分的未加权平均值用作{{1} }。

在其他文献中，我已经看到了在多类问题上使用的平衡准确度，其中计算了每个类的准确度，然后将这些精度的未加权平均值用作macro F1 score。

为什么宏观F1得分比平衡准确度更受青睐？

在平衡准确度<＆lt;＆lt; 0.5告诉我们模型的表现比偶然性差？

我们如何以与平衡准确度相同的方式解释F1得分 - 什么阈值表明分类器的表现好于/差于偶然？

答案 0 :(得分：0)

在多级分类中，不平衡效应更容易扭曲典型的性能指标。一些非常有利于阶级不平衡的绩效指标是： - 科恩的Kappa（https://en.wikipedia.org/wiki/Cohen's_kappa） - 跨类的几何平均值（而不是aritmetic mean）

两者都可以轻松适应多级分类。

答案 1 :(得分：0)

在我看来，F1得分是基于精确度和召回率，这可以适用于更多情况。例如，阴性样本远小于阳性样本。