我正在研究R中的虹膜数据集,我想对以下两个代码做一些澄清:
cluster_iris<-kmeans(iris[,1:4], centers=3)
iris$ClusterM <- as.factor(cluster_iris$cluster)
我认为第一个是使用数据文件的所有情况执行k均值聚类分析,只使用可选择3个聚类的前4列进行k均值聚类分析。 但是,我不确定第二段代码在做什么?第一个只是陈述分析的偏好而第二个是实际执行它(即执行k均值)?
感谢任何帮助
答案 0 :(得分:1)
第一行进行聚类分析,并将聚类标签存储在名为cluster_iris$cluster
的组件中,该组件只是一个数字向量。
第二行将该簇号作为分类标签放在原始数据集的行上。因此,现在您的虹膜数据包含所有花瓣和萼片内容以及名为"ClusterM"
的列中的群集索引。
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species ClusterM
1 5.1 3.5 1.4 0.2 setosa 1
2 4.9 3.0 1.4 0.2 setosa 3
3 4.7 3.2 1.3 0.2 setosa 3
4 4.6 3.1 1.5 0.2 setosa 3