我正在使用K-Means和Clustering在WEKA上工作
一般来说,我会检查项目数据集上的不同算法
我不能决定我应该选择什么样的最佳SSE / Clusters比率
理论上,随着我增加群集,SSE减少,但直到哪里?
找到一些K =(n / 2)^ 0.5的手指规则,任何人都可以秒吗?
答案 0 :(得分:0)
请注意,Weka没有很多聚类。它主要是一种分类工具。
平方和是非常 k-means中心度量。不要在任何其他算法中使用此度量。这是过度拟合:它是k-means优化的衡量标准,因此它当然会最佳(并且通过添加另一个集群,它将能够进一步改进这一措施,这毫不奇怪)。
如果要评估群集的质量,最可靠(尽管也有问题)的方法是使用带标签的数据集。