通过与地面真相进行比较来进行群集验证

时间:2014-03-26 15:59:01

标签: cluster-computing cluster-analysis

我们应该如何根据平均误差指数或精确度或召回率进行群集验证? 我怀疑的是,使用数据集D并遵循我的算法我得到6个标记为c1,c2,c3,c4,c5,c6的簇,每个簇中有50,60,30,40,10,10,10个元素

在数据集D中,实际的簇标签是1,2,3 .... 6,每个簇中没有55,45,5,35,10,60个元素。

我的群集标签c1是否必须对应于实际的群集标签1,c2到2,c3到3,....等等?

在这种情况下,我如何计算平均误差指数?

1 个答案:

答案 0 :(得分:0)

任何好的集群工具包(例如ELKI)都应该附带几十个的验证措施。 ARI可能是最受欢迎的之一。

无论如何,有的文献;任何有关聚类分析的教科书都应涵盖验证主题。任何体面的软件都应该包括这样的验证措施。

也许你可以阅读这些内容,然后再回答一个更精确的问题?

毕竟,你刚才提出的问题已在文献中得到解答。在比较两个结果时,您并不是第一个注意到群集始终没有1:1对应关系的人。 ARI是一个,一般原则是查看对象(如果两个元素在同一个集群中,则存在一对)并计算这些对的精度,召回等。