Question

我在原始数据集上实现k-means聚类后得到了一个df。我在这里有4个不同的聚类，我想知道的是每个聚类中4个变量（V1到V4）的变化是多少。换句话说，这4个变量的变化导致群集被分离。

<html class="hello"> <head> <iframe src="index.html"></iframe> </head> <body class="foo"><h1>a</h1></body> </html>

这是我在k-means之后的df1

{{1}}

您能否提供一个示例代码来获取群集中的摘要统计信息？我希望我的问题很明确。

Answer 1

您可以使用ddply中的plyr轻松完成此操作。

library(plyr)
ddply(df,.(cluster),summarise,variance1 = var(V1),variance2 = var(V2),mean1 = mean(V1),...)

你也可以这样做，

ddply(df,.(cluster),function(x){
  res = c(as.numeric(colwise(var)(x)),as.numeric(colwise(mean)(x)))
  names(res) = paste0(rep(c('Var','Mean'),each = 4),rep(1:4,2))
  res
})

使用R汇总集群中的变量变量（k均值）

1 个答案: