我们怎么能说聚类质量测量是好的?

时间:2015-03-02 23:27:22

标签: machine-learning cluster-analysis measurement

很少有众所周知的测量方法,如轮廓宽度(SW),戴维斯 - 布尔丁指数(DB),Calinski-Harabasz指数(CH)和Dunn指数。 我们怎么能说聚类质量测量是好的呢? 是否存在某种衡量聚类质量指标的指标?

另外,

  

"产生具有高Dunn指数的聚类的算法更令人满意" -Wikipedia

     

"具有高轮廓值的对象被认为是完全聚集的" -Wikipedia

     

"产生具有最小Davies-Bouldin指数的聚类集合的聚类算法被认为是最佳算法" -Wikipedia

这些值应该有多高或多低?是否有公制数?

任何人都可以使用数据集或IRIS数据集上的聚类质量测量来说明特定聚类质量指标是否合适?

1 个答案:

答案 0 :(得分:0)

也许一个简单的起点是:

  

"群集中的元素是否相同,是否与它们不同   不同群集中的元素"。

显然有各种各样的指标可以量化相似性与差异性 - 以及密度与距离等因素。

斯坦福NLP项目提供了一个易于使用的有用参考:http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html