Kmeans集群评估

时间:2017-01-24 05:20:29

标签: cluster-analysis k-means

我对群集评估中的SSB计算有点困惑  enter image description here

哪里

|Ci| is the size of cluster i
ci is the centroid of cluster i
c is the centroid of the overall data 

这是什么“整体数据的质心”? 它被提到作为整体数据的质心。

我们计算的是初始质心吗?

修改

anony-Mousse的回答再说一点。

让我们说我们已经在聚类中完成了一次迭代。

step 1: k =2, select random centroids(Let my random centroids be (2,1,3) and (3,1,1))
step 2: do clustering(Now 2 clusters are formed)
step 3: then find new centroids(by averaging data for each cluster, After averaging let my new clusters be (2.3,1.5,3) and (6.7,1,2))

所以现在我需要计算SSB。

现在我需要计算整个数据(输入数据)的质心,让该值为(25,30.5,78)

total no of values in c1 = 20
total no of values in c2 = 30

ssbc1 = 20*(dist([2.3,1.5,3],[25,30.5,78]))^2
ssbc1 = 30*(dist([6.7,1,2],[25,30.5,78]))^2
total ssb = ssbc1+ssbc2

是这样的吗?

1 个答案:

答案 0 :(得分:0)

质心是每个维度的平均值。

“在所有数据中”表示群集使用。