我有多维数据。 (11列-属性,150K行-数据数量)。例如,它是与稀疏相似的数据,这意味着一个基准具有类似(0,0,6.5,0,0,7.5,0,0,4.5,0,0)的数值=>因此,每个基准具有大约2〜5个非零属性值...
我想将这些数据可视化为二维空间。所以我的步骤就是这样。
1)PCA处理=>让每个数据获取x,y坐标。 2)聚类=> DBSCAN,K均值,...等等。
我是PCA的新手,但是我听说方差比例很重要,但是下面是以下比例。 (我通过R编程获得了它)
组件的重要性:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10
Standard deviation 1.4173 1.1836 1.1141 1.0108 0.99109 0.95231 0.89091 0.8456 0.71542 0.64610
Proportion of Variance 0.2009 0.1401 0.1241 0.1022 0.09823 0.09069 0.07937 0.0715 0.05118 0.04174
Cumulative Proportion 0.2009 0.3410 0.4651 0.5673 0.66551 0.75620 0.83558 0.9071 0.95826 1.00000
(PC1的PV:0.2009,PC2的PV:0.1401)
所以,据我所知,当我将数据转换为二维空间时,我认为我应该将数据投影到(PC1,PC2)坐标中,该坐标只有0.3410(累积比例)
对于该数据定位来说,0.3410(不是一个比我预期的值略低的值)不是太不可靠吗?另外,还有其他方法可以将数据投影到具有更大累积比例的2D空间中吗?
抱歉,我的背景知识和英语不好。我一直努力地自己找出答案,但这很困难。