主成分分析教程 - 将R代码转换为Matlab问题

时间:2013-10-09 12:15:41

标签: r matlab pca

我试图通过在线查找实际例子来了解PCA。可悲的是,我发现的大多数教程似乎并没有真正展示PCA的简单实际应用。经过大量的搜索,我遇到了这个

http://yatani.jp/HCIstats/PCA

这是一个很好的简单教程。我想在Matlab中重新创建结果,但教程是在R.我一直在尝试在Matlab中复制结果,但到目前为止还没有成功;我是Matlab的新手。我按如下方式创建了数组:

Price = [6,7,6,5,7,6,5,6,3,1,2,5,2,3,1,2];
Software = [5,3,4,7,7,4,7,5,5,3,6,7,4,5,6,3];
Aesthetics = [3,2,4,1,5,2,2,4,6,7,6,7,5,6,5,7];
Brand = [4,2,5,3,5,3,1,4,7,5,7,6,6,5,5,7];

然后在他的例子中,他做了这个

data <- data.frame(Price, Software, Aesthetics, Brand)

我在网上进行了快速搜索,这显然将矢量转换为R代码中的数据表。所以在Matlab中我做了这个

dataTable(:,1) = Price;
dataTable(:,2) = Software;
dataTable(:,3) = Aesthetics;
dataTable(:,4) = Brand;

现在这是我不确定的下一部分。

pca <- princomp(data, cor=TRUE)
summary(pca, loadings=TRUE)

我尝试过使用Matlab的PCA功能

 [COEFF SCORE LATENT] = princomp(dataTable)

但我的结果与教程中显示的结果完全不符。我的结果是

COEFF =

   -0.5958    0.3786    0.7065   -0.0511
   -0.1085    0.8343   -0.5402   -0.0210
    0.6053    0.2675    0.3179   -0.6789
    0.5166    0.2985    0.3287    0.7321


SCORE =

   -2.3362    0.0276    0.6113    0.4237
   -4.3534   -2.1268    1.4228   -0.3707
   -1.1057   -0.2406    1.7981    0.4979
   -3.6847    0.4840   -2.1400    1.0586
   -1.4218    2.9083    1.2020   -0.2952
   -3.3495   -1.3726    0.5049    0.3916
   -4.1126    0.1546   -2.4795   -1.0846
   -1.7309    0.2951    0.9293   -0.2552
    2.8169    0.5898    0.4318    0.7366
    3.7976   -2.1655   -0.2402   -1.2622
    3.3041    1.0454   -0.8148    0.7667
    1.4969    2.9845    0.7537   -0.8187
    2.3993   -1.1891   -0.3811    0.7556
    1.7836   -0.0072   -0.2255   -0.7276
    2.2613   -0.1977   -2.4966    0.0326
    4.2350   -1.1899    1.1236    0.1509


LATENT =

    9.3241
    2.2117
    1.8727
    0.5124 

然而教程中的结果是

Importance of components:
            Comp.1    Comp.2    Comp.3     Comp.4
Standard deviation     1.5589391 0.9804092 0.6816673 0.37925777
Proportion of Variance 0.6075727 0.2403006 0.1161676 0.03595911
Cumulative Proportion  0.6075727 0.8478733 0.9640409 1.00000000

Loadings:
        Comp.1 Comp.2 Comp.3 Comp.4
Price      -0.523         0.848       
Software   -0.177  0.977 -0.120       
Aesthetics  0.597  0.134  0.295 -0.734
Brand       0.583  0.167  0.423  0.674

有谁能解释为什么我的结果与教程有很大不同。我使用错误的Matlab函数吗?

此外,如果您能够提供PCA的任何其他简单的实用应用,将是非常有益的。仍然试图了解PCA中的所有概念,我喜欢我可以编写代码并自己查看结果的示例,所以我可以玩它,我发现学习这种方式更容易

任何帮助都将非常感谢!!

1 个答案:

答案 0 :(得分:4)

编辑:问题纯粹是缩放。

R代码:

summary(princomp(data, cor = FALSE), loadings=T, cutoff = 0.01)

Loadings:
           Comp.1 Comp.2 Comp.3 Comp.4
Price      -0.596 -0.379  0.706 -0.051
Software   -0.109 -0.834 -0.540 -0.021
Aesthetics  0.605 -0.268  0.318 -0.679
Brand       0.517 -0.298  0.329  0.732

根据Matlab help,如果你想缩放,你应该使用它:

Matlab代码:

princomp(zscore(X))

旧答案(红鲱鱼):

来自help(princomp)(在R中):

  

使用相关或协方差上的特征进行计算   矩阵,由cor确定。这样做是为了兼容   S-PLUS结果。一种首选的计算方法是在x上使用svd,   正如在prcomp中所做的那样。

     

请注意,默认计算使用除数N作为协方差   基质

在R函数prcomphelp(prcomp))的文档中,您可以阅读:

  

计算是通过奇异值分解完成的   (居中和可能缩放的)数据矩阵,而不是使用特征   协方差矩阵。这通常是首选的方法   数值精度。 [...]与princomp不同,方差是用   通常的除数N - 1.

Matlab函数显然使用了svd算法。如果我使用prcom(没有缩放,即不基于相关性)我得到的示例数据:

> prcomp(data)
Standard deviations:
[1] 3.0535362 1.4871803 1.3684570 0.7158006

Rotation:
                  PC1       PC2        PC3         PC4
Price      -0.5957661 0.3786184 -0.7064672  0.05113761
Software   -0.1085472 0.8342628  0.5401678  0.02101742
Aesthetics  0.6053008 0.2675111 -0.3179391  0.67894297
Brand       0.5166152 0.2984819 -0.3286908 -0.73210631

这是(与不相关的标志相同)与Matlab输出相同。