使用R汇总集群中的变量变量(k均值)

时间:2015-05-09 18:09:39

标签: r cluster-analysis k-means

我在原始数据集上实现k-means聚类后得到了一个df。我在这里有4个不同的聚类,我想知道的是每个聚类中4个变量(V1到V4)的变化是多少。换句话说,这4个变量的变化导致群集被分离。

<html class="hello"> <head> <iframe src="index.html"></iframe> </head> <body class="foo"><h1>a</h1></body> </html>

这是我在k-means之后的df1

{{1}}

您能否提供一个示例代码来获取群集中的摘要统计信息?我希望我的问题很明确。

1 个答案:

答案 0 :(得分:3)

您可以使用ddply中的plyr轻松完成此操作。

library(plyr)
ddply(df,.(cluster),summarise,variance1 = var(V1),variance2 = var(V2),mean1 = mean(V1),...)

你也可以这样做,

ddply(df,.(cluster),function(x){
  res = c(as.numeric(colwise(var)(x)),as.numeric(colwise(mean)(x)))
  names(res) = paste0(rep(c('Var','Mean'),each = 4),rep(1:4,2))
  res
})