应用错误收集

数据挖掘SSE通过集群K.

时间：2013-04-22 22:17:04

标签： cluster-analysis weka k-means

我正在使用K-Means和Clustering在WEKA上工作一般来说，我会检查项目数据集上的不同算法我不能决定我应该选择什么样的最佳SSE / Clusters比率理论上，随着我增加群集，SSE减少，但直到哪里？
找到一些K =（n / 2）^ 0.5的手指规则，任何人都可以秒吗？

1 个答案:

答案 0 :(得分：0)

请注意，Weka没有很多聚类。它主要是一种分类工具。

平方和是非常 k-means中心度量。不要在任何其他算法中使用此度量。这是过度拟合：它是k-means优化的衡量标准，因此它当然会最佳（并且通过添加另一个集群，它将能够进一步改进这一措施，这毫不奇怪）。

如果要评估群集的质量，最可靠（尽管也有问题）的方法是使用带标签的数据集。