kmeans结果作为R中Mclust的初始参数

时间:2018-04-14 18:37:48

标签: r k-means em gmm

我在做高斯混合模型。我在数据集上做了kmeans,我想在R中使用em算法的初始参数的均值,方差和大小。我发现参数是3的列表,我尝试做同样的事情,但它给我以下错误:

  

数组中的错误(x,c(length(x),1L),if(!is.null(names(x)))list(names(x),):     'data'必须是矢量类型,'NULL'

我的代码

l <- kmeans(iris[,-5],centers=3)
pi <- l$size/length(iris[,1])
my <- t(l$centers)
sig <- vector("list", 3)
new <- as.data.frame(cbind(iris[,-5],l$cluster))
for (i in 1:3) {
  subdata<-subset(new[,1:4],new[,5]==i); 
  sig[[i]]<-cov(subdata)
}

par <- vector("list",3)
par[[1]] <- pi; par[[2]] <- my; par[[3]] <- sig

kk <- em(modelName = msEst$modelName, data = iris[,-5],parameters = par)

有人可以告诉我应该如何将kmeans结果指定为初始参数?

1 个答案:

答案 0 :(得分:1)

以下是您似乎追求的一个简单示例。您要做的主要是以正确的形式获取parameters参数。滴答位是variance列表。如果您使用mclustVariance函数,会有一些帮助。

library(mclust)

g <- 3
dat <- iris[, -5]
p <- ncol(dat)
n <- nrow(dat)
k_fit <- kmeans(dat, centers=g)

par <- vector("list", g)
par$pro <- k_fit$size/n
par$mean <- t(k_fit$centers)

sigma <- array(NA, c(p, p, g))
new <- as.data.frame(cbind(dat, k_fit$cluster))
for (i in 1 : g) {

  subdata <- subset(new[, 1 : p], new[, (p+1)]==i) 
  sigma[,, i] <- cov(subdata)
}

variance <- mclustVariance("EEE", d = p, G = g)
par$variance <- variance
par$variance$sigma <- sigma

kk <- em(modelName = "EEE", data = dat, parameters = par)