我们应该如何根据平均误差指数或精确度或召回率进行群集验证? 我怀疑的是,使用数据集D并遵循我的算法我得到6个标记为c1,c2,c3,c4,c5,c6的簇,每个簇中有50,60,30,40,10,10,10个元素
在数据集D中,实际的簇标签是1,2,3 .... 6,每个簇中没有55,45,5,35,10,60个元素。
我的群集标签c1是否必须对应于实际的群集标签1,c2到2,c3到3,....等等?
在这种情况下,我如何计算平均误差指数?
答案 0 :(得分:0)
任何好的集群工具包(例如ELKI)都应该附带几十个的验证措施。 ARI可能是最受欢迎的之一。
无论如何,有吨的文献;任何有关聚类分析的教科书都应涵盖验证主题。任何体面的软件都应该包括这样的验证措施。
也许你可以阅读这些内容,然后再回答一个更精确的问题?
毕竟,你刚才提出的问题已在文献中得到解答。在比较两个结果时,您并不是第一个注意到群集始终没有1:1对应关系的人。 ARI是一个,一般原则是查看对象(如果两个元素在同一个集群中,则存在一对)并计算这些对的精度,召回等。