因此,我正在研究Accuracy和F1-Measure,以评估多标签分类算法(每个实例与多个标签相关联)。具有:
Accuracy = #Intersection(suggestions,correct_labels) / #Union(suggestions,correct_labels)
F1 Measure = 2 * (P * R) / (P + R)
哪种方法更好,为什么?我应该在什么情况下更喜欢彼此?
答案 0 :(得分:0)
通常,准确性更容易解释。但是F1的信息量更大。
这在很大程度上取决于您要解决的问题的种类以及不同类别的相对重要性。
例如。在MNIST数字分类的情况下,您可能期望类是平衡的(每个类中的示例数相等),准确性度量标准可以很好地表示性能。
但是在另一种情况下,例如癌症测试,您可能会发现
在这种情况下,依靠F1得分并试图在准确性和召回率之间取得平衡比仅仅看准确性更有意义。
因此,这实际上取决于每个标签的相对重要性以及您要确定的优先级。如果不查看问题的实际领域,什么也说不完。