什么是weka的kmeans输出(WCSS)是什么意思?

时间:2013-10-14 12:34:59

标签: cluster-analysis weka k-means

我正在使用weka进行K-means聚类,当我尝试一个小套装并找到时 内部簇的平方误差(WCSS)值并不是我想象的那样。

我认为WCSS是所有元素到集群中心的平方距离之和, 但价值不对:

例如: 数据集是:

3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0

且群集(仅一个)中心为3, 2, 3, 0, 1, 1, 1, 0, 1

weka输出WCSS是39,但根据我的理解,它应该是133。 我知道我对WCSS意味着什么一定是错的,有人可以告诉我这个吗?

2 个答案:

答案 0 :(得分:1)

我相信在归属化属性值之后报告的是WCSS。不幸的是,我无法复制你的结果。

但是,使用SimpleKMeans(k = 1)的数据集,我得到了以下结果:

  • 在规范化属性值之前,WCSS为26.4375
  • 归一化属性值后,WCSS为26.4375

source也表示Weka的K-means算法会自动规范化属性值。

答案 1 :(得分:0)

@relation cancer

@attribute a1 {1,2,3,4,5,6}

@attribute a2 {0,1,2}

@attribute a3 {0,1,2,3,4,5,6,7,8,9,10}

@attribute a4 {0,1,2,3,4,5,8}

@attribute a5 {0,1}

@attribute a6 {0,1,2}

@attribute a7 {0,1}

@attribute a8 {0,1,2,3,4}

@attribute a9 {0,1}

@attribute label {0,1}

@data

3,2,3,0,0,2,1,0,1,1

4,1,3,0,1,0,1,4,1,0

4,1,7,0,1,1,0,1,1,1

3,2,7,0,0,2,1,1,0,0

3,2,6,1,0,1,0,2,1,1

4,2,5,1,1,1,1,0,0,0

4,1,8,0,1,2,0,0,1,0

3,2,2,0,1,1,0,0,1,0

3,2,0,0,1,1,1,3,1,0