这些R代码的含义是什么?它们是相关的吗?

时间:2016-11-18 15:59:34

标签: r cluster-analysis k-means

我正在研究R中的虹膜数据集,我想对以下两个代码做一些澄清:

cluster_iris<-kmeans(iris[,1:4], centers=3)

iris$ClusterM <- as.factor(cluster_iris$cluster) 

我认为第一个是使用数据文件的所有情况执行k均值聚类分析,只使用可选择3个聚类的前4列进行k均值聚类分析。 但是,我不确定第二段代码在做什么?第一个只是陈述分析的偏好而第二个是实际执行它(即执行k均值)?

感谢任何帮助

1 个答案:

答案 0 :(得分:1)

第一行进行聚类分析,并将聚类标签存储在名为cluster_iris$cluster的组件中,该组件只是一个数字向量。

第二行将该簇号作为分类标签放在原始数据集的行上。因此,现在您的虹膜数据包含所有花瓣和萼片内容以及名为"ClusterM"的列中的群集索引。

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species ClusterM
1          5.1         3.5          1.4         0.2  setosa        1
2          4.9         3.0          1.4         0.2  setosa        3
3          4.7         3.2          1.3         0.2  setosa        3
4          4.6         3.1          1.5         0.2  setosa        3