我很难理解如何为多类聚类测量精度和召回率。这是一个包含9个元素的示例:
考虑以下基本事实:
A,B,C,D
E,F,G
H,I
和以下观察到的聚类:
A,B,C
D
E,F,G,H,I
我应该如何计算真阳性(TP),假阳性(FP)和假阴性(FN)的数量?
我幼稚的方法是考虑所有对元素:
TP = 7 (A-B, A-C, B-C, E-F, E-G, F-G, H-I)
FP = 6 (E-H, E-I, F-H, F-I, G-H, G-I)
FN = 3 (A-D, B-D, C-D)
这是正确的方法吗?
谢谢
答案 0 :(得分:0)
是的,TP等一见钟情。
但枚举所有对都是慢。
您可以做得更好:您可以根据交叉列表矩阵直接计算对数。
应该有TP = 3 * 2/2 + 3 * 2/2 + 2 * 1/2 = 7
FN = 3 * 2/2 + 5 * 4 / 2-TP = 13-7 = 6
FP = 4 * 3/2 + 3 * 2/2 + 2 * 1 / 2-TP = 10-7 = 3
等
但是要计算调整后的兰德指数(ARI)。因为您想要一个随机结果仅得分接近0的量度。使用精确度和查全率,结果似乎比实际情况要好得多。