我正在尝试使用PCA来可视化我的k-means算法的实现。我正在遵循this link中关于主成分系数,分数和方差的教程。
我使用以下命令:[coeff,score,~]=pca(X');
其中X是我的数据。
我的数据是30 x 455矩阵,即30个特征,包含455个样本。我已成功使用score参数创建2D图以用于可视化目的。现在我希望将30维中心投射到那个平原上。我试过coeff*centers(:,1)
,但我不明白这是否正确用法。
如何将新的30维点投影到第一个与第二个pca组件的2D?
答案 0 :(得分:2)
我假设centers(:, 1)
你表示一个新观察。要在主要组件中表达这种观察,你应该写
[coeff, score, ~, ~, ~, mu]=pca(X'); %return the estimated mean "mu"
tmp = centers(:, 1) - mu'; %remove mean since pca() by default centers data
coeff' * tmp; % the new observation expressed in the principal components
请注意,您必须减去均值,因为默认情况下pca()
将数据居中。另外,请注意coeff上的转置'
。实际上它应该是inv(coeff)
,但由于coeff
是orthogonal matrix,我们可以使用转置。