应用错误收集

时间：2014-03-26 15:59:01

标签： cluster-computing cluster-analysis

我们应该如何根据平均误差指数或精确度或召回率进行群集验证？我怀疑的是，使用数据集D并遵循我的算法我得到6个标记为c1，c2，c3，c4，c5，c6的簇，每个簇中有50,60,30,40,10,10,10个元素

在数据集D中，实际的簇标签是1,2,3 .... 6，每个簇中没有55,45,5,35,10,60个元素。

我的群集标签c1是否必须对应于实际的群集标签1，c2到2，c3到3，....等等？

在这种情况下，我如何计算平均误差指数？

答案 0 :(得分：0)

任何好的集群工具包（例如ELKI）都应该附带几十个的验证措施。 ARI可能是最受欢迎的之一。

无论如何，有吨的文献;任何有关聚类分析的教科书都应涵盖验证主题。任何体面的软件都应该包括这样的验证措施。

也许你可以阅读这些内容，然后再回答一个更精确的问题？

毕竟，你刚才提出的问题已在文献中得到解答。在比较两个结果时，您并不是第一个注意到群集始终没有1：1对应关系的人。 ARI是一个，一般原则是查看对象（如果两个元素在同一个集群中，则存在一对）并计算这些对的精度，召回等。