答案 0 :(得分:0)
基本思想是评估样本数据的聚类评分,通常是聚类内的距离和聚类之间的距离。这个测量越多,聚类就越好,基于这种方法,你可以选择最好的缤纷的参数。其中一个指标可以在http://alias-i.com/lingpipe/docs/api/com/aliasi/cluster/ClusterScore.html
找到答案 1 :(得分:-8)
说真的,你想知道什么?你想让我们告诉你一些号码吗?或者如何找到最佳k
的策略?你必须阅读有关k-means的书籍或其他资源,我很确定它已被覆盖。
维基百科上有一些关于它的内容:
http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set
在使用算法之前,请先阅读它。