数据挖掘SSE通过集群K.

时间:2013-04-22 22:17:04

标签: cluster-analysis weka k-means

我正在使用K-Means和Clustering在WEKA上工作 一般来说,我会检查项目数据集上的不同算法 我不能决定我应该选择什么样的最佳SSE / Clusters比率 理论上,随着我增加群集,SSE减少,但直到哪里?
找到一些K =(n / 2)^ 0.5的手指规则,任何人都可以秒吗?

1 个答案:

答案 0 :(得分:0)

请注意,Weka没有很多聚类。它主要是一种分类工具。

平方和是非常 k-means中心度量。不要在任何其他算法中使用此度量。这是过度拟合:它是k-means优化的衡量标准,因此它当然会最佳(并且通过添加另一个集群,它将能够进一步改进这一措施,这毫不奇怪)。

如果要评估群集的质量,最可靠(尽管也有问题)的方法是使用带标签的数据集。