多类聚类的召回率和精确度

时间:2018-10-26 08:58:39

标签: cluster-analysis precision precision-recall

我很难理解如何为多类聚类测量精度和召回率。这是一个包含9个元素的示例:

考虑以下基本事实:

A,B,C,D
E,F,G
H,I

和以下观察到的聚类:

A,B,C
D
E,F,G,H,I

我应该如何计算真阳性(TP),假阳性(FP)和假阴性(FN)的数量?

我幼稚的方法是考虑所有对元素:

TP = 7 (A-B, A-C, B-C, E-F, E-G, F-G, H-I)
FP = 6 (E-H, E-I, F-H, F-I, G-H, G-I)
FN = 3 (A-D, B-D, C-D)

这是正确的方法吗?

谢谢

1 个答案:

答案 0 :(得分:0)

是的,TP等一见钟情。

但枚举所有对都是

您可以做得更好:您可以根据交叉列表矩阵直接计算对数。

应该有TP = 3 * 2/2 + 3 * 2/2 + 2 * 1/2 = 7

FN = 3 * 2/2 + 5 * 4 / 2-TP = 13-7 = 6

FP = 4 * 3/2 + 3 * 2/2 + 2 * 1 / 2-TP = 10-7 = 3

但是要计算调整后的兰德指数(ARI)。因为您想要一个随机结果仅得分接近0的量度。使用精确度和查全率,结果似乎比实际情况要好得多。