寻找聚类算法的准确性

时间:2013-07-28 18:06:48

标签: machine-learning data-mining cluster-analysis

如果在算法真正的聚类和预测聚类的情况下如何找到聚类算法的准确性?

我在网上搜索但找不到任何有用的来源。我知道如何计算分类算法的准确性。

2 个答案:

答案 0 :(得分:7)

存在许多方法,其中一些方法在Wikipedia page "Cluster analysis", section "External evaluation"上讨论。

基于配对计数的指数(F-Measure,Rand等)似乎是最受欢迎的。它们很容易计算;实际上比一些设定匹配度量更容易(匈牙利算法找到最佳1:1对齐在O(n^3),而所有对计数度量可以在交集矩阵上的线性传递中计算,所以在{ {1}}。(O(n^2)是群集的数量。)

你可以找到一个新颖的视觉实验(但根据我的经验,它对实际数据没有用处,更多的是用于理解2d玩具数据上两种算法的差异)基于配对计数测量(以及实现十几项外部措施):

  

Achtert,Elke,et al。 “聚类评估 - 度量和视觉支持。”数据工程(ICDE),2012年IEEE第28届国际会议。 IEEE,2012。

请注意,将新群集与“已知”群集进行比较存在一个很大的问题:

通过这样做,你实际上惩罚新颖的解决方案。

但是在使用群集分析时,您需要一个新颖的解决方案。如果它只是您已经拥有的标签,您可以使用您已有的标签。实际上,良好的聚类结果将与已知解决方案分道,并提供有关数据的备用视图。

答案 1 :(得分:0)

使用ROC曲线分析聚类质量,当然,如果您的聚类受到监督。

http://en.wikipedia.org/wiki/Receiver_operating_characteristic