Question

根据这个公布的页面BCubed精度和召回率，因此F1-Measure计算是评估聚类性能的最佳技术

Amigó，Enrique，et al。 “外在聚类的比较基于形式约束的评估指标。“信息检索 12.4（2009）：461-486。

它显示了BCubed计算，如图所示

据我所知，我们计算每个项目的精确度和召回率，然后计算其总和的平均值？

但是我的理解与他们给出的评估不符，如下图所示

根据上图中的图像均匀性示例 - 左侧，我计算BCubed的精度如下但不匹配

black : 4/4
gray: 4/7
Other three each one : 1/7

so average precision is : (4/4 + 4/6 + 1/7 + 1/7 + 1/7) / 5

然而，这与他们在0.59

的图像中的结果不匹配

项目的BCubed精度是其集群中项目的比例其中包含项目的类别（包括其自身）。整体BCubed precision是分布中所有项目的平均精度。由于平均值是根据项目计算的，因此没有必要根据群集或类别的大小应用任何权重。 BCubed召回是类似的，用“类别”取代“集群”。

Answer 1

共有14项，而不是5项。

(4*4/4+1/3+2*2/3+3*1/7+4*4/7)/14 = 0.5986394557823128

但这些都是玩具的例子。我更喜欢调整兰德指数而不是BCubed，而且它更广为人知并被接受。