我正在使用R的kmeans指令在数据集中执行k-means算法。我对一些参数有疑问。结果是:
Cluster means:
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 5.006000 3.428000 1.462000 0.246000
在这种情况下,Cluster意味着什么?它是群集中所有对象距离的平均值?
在最后一部分我也有:
Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
(between_SS / total_SS = 88.4 %)
该值是88.4%可能是它的解释吗?
由于
答案 0 :(得分:11)
聚类意味着组合以在由输入变量定义的多变量空间中给出聚类的质心(中心)。因此,您显示的集群1的均值集是该集群的质心(中心)的坐标。它们被计算为分配给该集群的每个变量的值的平均值。
88.4 %
衡量数据集中由群集解释的总方差。 k -means最小化样本的组内分散(扩展),平方和。这最大化了组间分散。通过将样本分配给 k 簇而不是 n (样本数)簇,实现了88.4%的平方和的减少。