我正在开发基于模型的聚类。
首先,我使用" mclust在R中开发了基于模型的聚类。"接下来,我想获取75%的样本,重新运行基于模型的聚类,并使用信息变量或rand索引将结果与整个数据集的结果进行比较。但是,我对这些代码感到困惑。
以下是可用于更改CRAN信息的代码。
cl1 <-sample(1:30, 10, replace=TRUE)
cl2 <- c(cl1[1:5], sample(1:3, 5, replace=TRUE))
vi.dist(cl1,cl2)
vi.dist(cl1,cl2, parts=TRUE)
以下是我开发群集解决方案的方法:
model <-Mclust(data[,18:22])
使用整个数据集和数据的基于模型的聚类解决方案是使用第18至22列的数据集的名称
random <- data[rbinom(nrow(data), 1,.75)==1,]
开发了随机样本
randommodel <-Mclust(random[,18:22])
使用随机样本进行基于模型的聚类
cl1 <- (model$classification)
cl2 <- (randommodel$classification)
vi.dist(cl1,cl2)
我尝试使用R代码更改信息,结果失败,因为cl1和cl2的长度不同。
那么,考虑到两种解决方案的观察数量不同,我如何使两种解决方案的长度相同?或者,我是否尝试错误地使用信息的变化?