我正在运行ggbiplot包来运行我的数据的PCA分析。数据被组织为rownames作为样本的名称和4列与数据。
但是有很多行,超过1000行。
当运行ggbiplot时,我得到如下所示的图形,这很好地分离了我的数据 [
正如您所看到的,样本名称被粘在一起,因此它们不易识别,我想提取包含这9个组中每个样本的rownames,以了解分离这些数据的内容。一种想法是使用确定的X和Y轴范围提取数据
有没有办法得到它? ggbiplot正在使用" prcomp"类文件
答案 0 :(得分:1)
PCA 帮助沿主轴沿最大方差方向显示数据。因此,检测群集变得更容易(例如在 biplot 中)。
但要识别特定群集的数据点/行,您需要运行群集算法。由于您的数据似乎具有非重叠群集,因此任何群集算法都应该这样做。但是,由于您已经知道需要多少个集群并对主轴上的集群中心有一定的了解,我建议您选择运行 K-means 算法( k = 9 用于分析)它将为您提供一个整数向量,指定哪个数据点属于9个簇中的哪个。
即使您直接在 PCA分数上运行 K-means ,它也应该很容易,因为您已初步猜测 centeroids 上面的 biplot 。