我已经对具有30个随机变量的矩阵进行了一些聚类,每个变量有13000个观测值。我有10个集群
现在我需要通过计算每个集群的方差来测试集群的好坏程度。 有谁知道我如何计算方差?
我可以很容易地计算矩阵中每列的方差(例如每个随机变量的方差),但我想计算整个聚类的方差。
有谁知道怎么做?
e.g。
data <- data.frame(x=c(2,2,2,3,7),
y=c(30,40,40,30,10),
z=c(1,2,3,4,5),
cluster=c('a','a','c','a','c'))
candidates <- dlply(data,.(cluster),function(data){
laply(data[,-4],var)
})
这为每个群集标签(a,c)的每列提供了差异。我不认为这是正确的方法。