我在原始数据集上实现k-means聚类后得到了一个df。我在这里有4个不同的聚类,我想知道的是每个聚类中4个变量(V1到V4)的变化是多少。换句话说,这4个变量的变化导致群集被分离。
<html class="hello"> <head> <iframe src="index.html"></iframe> </head> <body class="foo"><h1>a</h1></body> </html>
这是我在k-means之后的df1
{{1}}
您能否提供一个示例代码来获取群集中的摘要统计信息?我希望我的问题很明确。
答案 0 :(得分:3)
您可以使用ddply
中的plyr
轻松完成此操作。
library(plyr)
ddply(df,.(cluster),summarise,variance1 = var(V1),variance2 = var(V2),mean1 = mean(V1),...)
你也可以这样做,
ddply(df,.(cluster),function(x){
res = c(as.numeric(colwise(var)(x)),as.numeric(colwise(mean)(x)))
names(res) = paste0(rep(c('Var','Mean'),each = 4),rep(1:4,2))
res
})