群集评估,考虑群集的数量

时间:2018-05-03 23:08:04

标签: cluster-analysis data-mining

我知道如何计算群集的召回,精确度和F_measure,如本课程中所述https://www.coursera.org/learn/cluster-analysis/lecture/BcYhV/6-4-external-measures-1-matching-based-measures

但是,如果我的系统生成的集群数量超过实际情况中的集群数量,我们如何计算这些度量呢?

似乎生成更多集群的系统没有任何代价,因为我们只是将地面实况中的每个集群与从我的系统生成的最佳集群进行匹配。我错过了什么吗?

1 个答案:

答案 0 :(得分:0)

不要像分类那样计算它们!

你需要使用成对点 - 这是非常流行的ARI测量所使用的最常用的方法。

或者您需要找到具有最大重叠的群集,这有时称为“匹配”。我不相信这种方法。

最后但并非最不重要的是,您可以使用匈牙利语算法找到最佳的部分1:1对应关系,并将不匹配的聚类视为全部错误。