如何解释由PCA形成的集群可视化。假设我在我的数据集中有13个变量A,B,C ......我想看看它们在无监督学习中的表现。因为你不能用所有13个变量可视化集群。在这种情况下,我会使用PCA来降低维数,然后绘制聚类。我该如何解释由PCA的2维形成的星团。
答案 0 :(得分:0)
本质上,您已经将数据投影到2D中以便可视化。但是,您将其投影到了哪个2D空间?二维空间最能保留数据的可变性。本质上,2D空间中的每个轴代表原始空间中的(正交)方向,它是原始变量的(线性)组合。 因此,您可以将结果解释为是空间中群集的可视化结果,代表原始空间的最佳线性缩减(“最佳”表示它可以最准确地保留数据中的方差)。因此,您可能希望群集成员在2D模式下比非群集成员更靠近彼此。但是,这不一定会发生。如果不是,则表明PCA降维不能保留聚类算法发现的数据结构。 (虽然这不一定意味着聚类失败,或者数据中没有固有的可聚类结构,但是它可能太非线性而无法在投影下保存……或者可能根本不存在)。 / p>
有关更多的直观信息,请参见this question。