我有150种实验物质。分别测量这些物质中的每一种的80个特征。我应用PCA计算其PC并确定了前三个组件。现在,我想在R.软件(www.R-project.org)中应用k-means聚类,对低维数据进行1000次迭代,将个体与他们分开。各自的人口。
任何人都可以看到如何做到这一点?感谢
答案 0 :(得分:0)
请参阅adegenet package并尝试DAPC。
请阅读http://bmcgenet.biomedcentral.com/articles/10.1186/1471-2156-11-94我认为它符合您的意愿。它在adegenet R包中作为DAPC实现。此实现是针对多基因座基因型数据设计的,但原理描述得很好,因此您可以根据自己的数据修改它或找到类似的东西。
它对PC转换(“清除”)数据执行K-means聚类,这大大加快了整个计算速度。最后,它执行判别分析以获得最佳聚类。这是非常有效的方法。
答案 1 :(得分:0)
http://www.statmethods.net/advstats/cluster.html为群集数据提供了简单易用的示例。
对于你的问题:
考虑一些随机的普通数据和一些简单的代码来适应Kmeans聚类。注意,3个簇将适合这些数据(纯粹是任意的)。
data = matrix(rnorm(450),ncol=3)
fit = kmeans(data, centers = 3, iter.max = 1000)
cluster.data = data.frame(data, fit$cluster)
这是否回答了你的问题?