Question

我有150种实验物质。分别测量这些物质中的每一种的80个特征。我应用PCA计算其PC并确定了前三个组件。现在，我想在R.软件（www.R-project.org）中应用k-means聚类，对低维数据进行1000次迭代，将个体与他们分开。各自的人口。

任何人都可以看到如何做到这一点？感谢

Answer 1

请参阅adegenet package并尝试DAPC。

请阅读http://bmcgenet.biomedcentral.com/articles/10.1186/1471-2156-11-94我认为它符合您的意愿。它在adegenet R包中作为DAPC实现。此实现是针对多基因座基因型数据设计的，但原理描述得很好，因此您可以根据自己的数据修改它或找到类似的东西。

它对PC转换（“清除”）数据执行K-means聚类，这大大加快了整个计算速度。最后，它执行判别分析以获得最佳聚类。这是非常有效的方法。

Answer 2

http://www.statmethods.net/advstats/cluster.html为群集数据提供了简单易用的示例。

对于你的问题：

考虑一些随机的普通数据和一些简单的代码来适应Kmeans聚类。注意，3个簇将适合这些数据（纯粹是任意的）。

data = matrix(rnorm(450),ncol=3)

fit = kmeans(data, centers = 3, iter.max = 1000)

cluster.data = data.frame(data, fit$cluster)

这是否回答了你的问题？

具有迭代的R.软件中的k均值聚类

2 个答案: