多类分类器评估

时间:2017-01-25 06:48:15

标签: classification information-retrieval confusion-matrix

我正在阅读分类器,尤其是多类分类器。我的问题是,当我使用精确度和回忆来评估分类器时,我不理解多类分类器评估中误判假阴性的含义。

例如,当我对文档(其真实类别为C-1)进行分类时,分类器将其分类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)

2 个答案:

答案 0 :(得分:0)

由于你给出的例子是一个两类问题,我在你的例子的上下文中解释了误判和假阴性。

在2级案例中,混淆矩阵通常如下所示:

       | Declare C-1 | Declare C-2 |
|Is C-1|    TP       |   FN        |
|Is C-2|    FP       |   TN        |

我使用的符号表示以下内容:

  • TP =真阳性(分类为C-1,实际上是C-1)
  • FN =假阴性(分类为C-2,但实际上是C-1)
  • FP =误报
  • TN = true negative

从原始数据中,表中的值通常是每次出现在测试数据上的计数。由此,我们可以相应地计算精度,召回率和其他值。

例如,您有一个表格如下。

       | Declare C-1 | Declare C-2 |
|Is C-1|    12       |    6        |
|Is C-2|     8       |   11        |

上表代表以下信息:

  • 12个文件被归类为C-1,它们实际上属于C-1。
  • 6份文件被归类为C-2,但它们实际上属于C-1。
  • 8个文件被归类为C-1,但它们实际上属于C-2。
  • 11个文件被归类为C-2,它们实际上属于C-2。

对于C-1类:

Precision = 12 / (12 + 8)
Recall = 12 / (12 + 6)

对于C-2类:

Precision = 11 / (11 + 6)
Recall = 11 / (11 + 8)
  

例如,当我对文档进行分类(其真实类别为C-1)时,分类器将其归类为C-2。那么,我应该增加C-2的假阳性并增加C-1的假阴性吗? (因为真正的答案是C-1。)

您应该增加与Declare C-2Is C-1相关联的混淆矩阵的单元格值的计数,下面用*表示。

       | Declare C-1 | Declare C-2 |
|Is C-1|     0       |    0*       |
|Is C-2|     0       |    0        |

答案 1 :(得分:0)

要在一行中回答-是的,这一错误分类的影响将增加C-2的误报率,而C-1的误报率会下降。因此,C-2的精度将下降,而C-1的召回率将下降。

stats.stackexchange.com上也有类似的问题,该问题也有详细的答案:

https://stats.stackexchange.com/questions/51296/how-do-you-calculate-precision-and-recall-for-multiclass-classification-using-co