我正在使用weka进行K-means聚类,当我尝试一个小套装并找到时 内部簇的平方误差(WCSS)值并不是我想象的那样。
我认为WCSS是所有元素到集群中心的平方距离之和, 但价值不对:
例如: 数据集是:
3.0, 2.0, 3.0, 0.0, 0.0, 2.0, 1.0, 0.0, 1.0
4.0, 1.0, 3.0, 0.0, 1.0, 0.0, 1.0, 4.0, 1.0
4.0, 1.0, 7.0, 0.0, 1.0, 1.0, 0.0, 1.0, 1.0
3.0, 2.0, 7.0, 0.0, 0.0, 2.0, 1.0, 1.0, 0.0
3.0, 2.0, 6.0, 1.0, 0.0, 1.0, 0.0, 2.0, 1.0
4.0, 2.0, 5.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0
4.0, 1.0, 8.0, 0.0, 1.0, 2.0, 0.0, 0.0, 1.0
3.0, 2.0, 2.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0
3.0, 2.0, 0.0, 0.0, 1.0, 1.0, 1.0, 3.0, 1.0
且群集(仅一个)中心为3, 2, 3, 0, 1, 1, 1, 0, 1
:
weka输出WCSS是39,但根据我的理解,它应该是133
。
我知道我对WCSS意味着什么一定是错的,有人可以告诉我这个吗?
答案 0 :(得分:1)
我相信在归属化属性值之后报告的是WCSS。不幸的是,我无法复制你的结果。
但是,使用SimpleKMeans(k = 1)的数据集,我得到了以下结果:
此source也表示Weka的K-means算法会自动规范化属性值。
答案 1 :(得分:0)
@relation cancer
@attribute a1 {1,2,3,4,5,6}
@attribute a2 {0,1,2}
@attribute a3 {0,1,2,3,4,5,6,7,8,9,10}
@attribute a4 {0,1,2,3,4,5,8}
@attribute a5 {0,1}
@attribute a6 {0,1,2}
@attribute a7 {0,1}
@attribute a8 {0,1,2,3,4}
@attribute a9 {0,1}
@attribute label {0,1}
@data
3,2,3,0,0,2,1,0,1,1
4,1,3,0,1,0,1,4,1,0
4,1,7,0,1,1,0,1,1,1
3,2,7,0,0,2,1,1,0,0
3,2,6,1,0,1,0,2,1,1
4,2,5,1,1,1,1,0,0,0
4,1,8,0,1,2,0,0,1,0
3,2,2,0,1,1,0,0,1,0
3,2,0,0,1,1,1,3,1,0