NB精度/召回平均/总分的计算差异

时间:2016-06-04 06:10:57

标签: scikit-learn naivebayes precision-recall

我正在进行文本分类分析,我运行了基于NB的分类器,产生了以下结果:

Classification Report:
             precision    recall  f1-score   support

          0       0.00      0.00      0.00         2
          1       0.67      1.00      0.80         4

avg / total       0.44      0.67      0.53         6

Classification Report:
             precision    recall  f1-score   support

          0       0.00      0.00      0.00         0
          1       1.00      0.83      0.91         6

avg / total       1.00      0.83      0.91         6

这里让我感到困惑的是以下问题。为什么平均/总分数的计算方式不同?为什么第二个表中的平均/总分只是第1类的精确/召回结果的副本?因为没有0级测试实例?

此致

guzden

1 个答案:

答案 0 :(得分:0)

两种情况下的得分计算相同:

Ex.1: 1) f1 = 2 * 0.67 * 1.00 / (0.67 + 1.00) = 0.80
 average f1 = 2 * 0.44 * 0.67 / (0.44 + 0.67) = 0.53

Ex.2: 2) f1 = 2 * 1.00 * 0.83 / (1.00 + 0.83) = 0.91
 average f1 = 2 * 1.00 * 0.83 / (1.00 + 0.83) = 0.91

你在这里面临的问题叫做辛普森的悖论:你在不同的组(0和1)中有一个结果,当组合(平均)时会发生变化。查看Wiki页面,有一个很好的例子和解释。

<小时/>

编辑:

第一种情况下的召回/精确平均计算:

Av. precision = (0.67 * 4 + 0.00 * 2) / (4 + 2) = 0.44
Av. recall    = (1.00 * 4 + 0.00 * 2) / (4 + 2) = 0.67