我在做高斯混合模型。我在数据集上做了kmeans,我想在R中使用em算法的初始参数的均值,方差和大小。我发现参数是3的列表,我尝试做同样的事情,但它给我以下错误:
数组中的错误(x,c(length(x),1L),if(!is.null(names(x)))list(names(x),): 'data'必须是矢量类型,'NULL'
我的代码
l <- kmeans(iris[,-5],centers=3)
pi <- l$size/length(iris[,1])
my <- t(l$centers)
sig <- vector("list", 3)
new <- as.data.frame(cbind(iris[,-5],l$cluster))
for (i in 1:3) {
subdata<-subset(new[,1:4],new[,5]==i);
sig[[i]]<-cov(subdata)
}
par <- vector("list",3)
par[[1]] <- pi; par[[2]] <- my; par[[3]] <- sig
kk <- em(modelName = msEst$modelName, data = iris[,-5],parameters = par)
有人可以告诉我应该如何将kmeans结果指定为初始参数?
答案 0 :(得分:1)
以下是您似乎追求的一个简单示例。您要做的主要是以正确的形式获取parameters
参数。滴答位是variance
列表。如果您使用mclustVariance
函数,会有一些帮助。
library(mclust)
g <- 3
dat <- iris[, -5]
p <- ncol(dat)
n <- nrow(dat)
k_fit <- kmeans(dat, centers=g)
par <- vector("list", g)
par$pro <- k_fit$size/n
par$mean <- t(k_fit$centers)
sigma <- array(NA, c(p, p, g))
new <- as.data.frame(cbind(dat, k_fit$cluster))
for (i in 1 : g) {
subdata <- subset(new[, 1 : p], new[, (p+1)]==i)
sigma[,, i] <- cov(subdata)
}
variance <- mclustVariance("EEE", d = p, G = g)
par$variance <- variance
par$variance$sigma <- sigma
kk <- em(modelName = "EEE", data = dat, parameters = par)