很少有众所周知的测量方法,如轮廓宽度(SW),戴维斯 - 布尔丁指数(DB),Calinski-Harabasz指数(CH)和Dunn指数。 我们怎么能说聚类质量测量是好的呢? 是否存在某种衡量聚类质量指标的指标?
另外,
"产生具有高Dunn指数的聚类的算法更令人满意" -Wikipedia
"具有高轮廓值的对象被认为是完全聚集的" -Wikipedia
"产生具有最小Davies-Bouldin指数的聚类集合的聚类算法被认为是最佳算法" -Wikipedia
这些值应该有多高或多低?是否有公制数?
任何人都可以使用数据集或IRIS数据集上的聚类质量测量来说明特定聚类质量指标是否合适?
答案 0 :(得分:0)
也许一个简单的起点是:
"群集中的元素是否相同,是否与它们不同 不同群集中的元素"。
显然有各种各样的指标可以量化相似性与差异性 - 以及密度与距离等因素。
斯坦福NLP项目提供了一个易于使用的有用参考:http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html