如何计算BCubed精度和召回率

时间:2016-04-06 10:29:06

标签: machine-learning cluster-analysis data-mining precision-recall

根据这个公布的页面BCubed精度和召回率,因此F1-Measure计算是评估聚类性能的最佳技术

http://cs.utsa.edu/~qitian/seminar/Spring11/03_11_11/IR2009.pdf

  

Amigó,Enrique,et al。 “外在聚类的比较   基于形式约束的评估指标。“信息检索   12.4(2009):461-486。

它显示了BCubed计算,如图所示

enter image description here

据我所知,我们计算每个项目的精确度和召回率,然后计算其总和的平均值?

但是我的理解与他们给出的评估不符,如下图所示

enter image description here

根据上图中的图像均匀性示例 - 左侧,我计算BCubed的精度如下但不匹配

black : 4/4
gray: 4/7
Other three each one : 1/7

so average precision is : (4/4 + 4/6 + 1/7 + 1/7 + 1/7) / 5

然而,这与他们在0.59

的图像中的结果不匹配
  

项目的BCubed精度是其集群中项目的比例   其中包含项目的类别(包括其自身)。整体BCubed   precision是分布中所有项目的平均精度。   由于平均值是根据项目计算的,因此没有必要   根据群集或类别的大小应用任何权重。   BCubed召回是类似的,用“类别”取代“集群”。

1 个答案:

答案 0 :(得分:2)

共有14项,而不是5项。

(4*4/4+1/3+2*2/3+3*1/7+4*4/7)/14 = 0.5986394557823128

但这些都是玩具的例子。我更喜欢调整兰德指数而不是BCubed,而且它更广为人知并被接受。