多标签分类中的绩效评估

时间:2013-12-03 23:16:51

标签: performance machine-learning classification

因此,我正在研究Accuracy和F1-Measure,以评估多标签分类算法(每个实例与多个标签相关联)。具有:

Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)

哪种方法更好,为什么?我应该在什么情况下更喜欢彼此?

1 个答案:

答案 0 :(得分:0)

通常,准确性更容易解释。但是F1的信息量更大。

这在很大程度上取决于您要解决的问题的种类以及不同类别的相对重要性。

例如。在MNIST数字分类的情况下,您可能期望类是平衡的(每个类中的示例数相等),准确性度量标准可以很好地表示性能。

但是在另一种情况下,例如癌症测试,您可能会发现

  1. 最好找到所有癌症病例,即使它需要更多没有癌症的人参加测试(召回率高,但对患者而言昂贵)
  2. 班级之间存在很多不平衡现象(例如,有5%的人患有癌症),因此,只要告诉没有人患有癌症,这完全是没有帮助的

在这种情况下,依靠F1得分并试图在准确性和召回率之间取得平衡比仅仅看准确性更有意义。

因此,这实际上取决于每个标签的相对重要性以及您要确定的优先级。如果不查看问题的实际领域,什么也说不完。