我在有和没有标准化的情况下进行了PCA / FA分析,最终得到了不同的结果。对于标准化,我只是将每个输入变量除以其相应的标准偏差。但是,我没有减去平均值(如Z分数)。我的问题是在PCA / FA的情况下减去平均值有多重要?
我在另一篇博客上发现,除以std dev是标准化数据集的另一种方式。这在任何意义上都优于z分数吗?谢谢。
答案 0 :(得分:0)
根据定义,主成分会尝试捕获数据中最高的变异;重要的是,这里的变化被定义为第二范数; 不是方差而不是标准偏差;
例如,第一个主成分是指定方向的数据的线性组合:
这很重要因为
与方差不同,第二范数对位置敏感;换句话说,如果向向量添加常量,方差不会改变,但第2范数会改变;
与标准偏差不同,第二范数对规模敏感;即,如果向量乘以常数因子,则第二范数将按该因子进行缩放;
如果分析受到解释因素的位置和规模的影响,至少存在两个问题:
实际上,观察代表了不同的现象,因此它们具有不同且无与伦比的规模和平均值;例如,变异和平均收入值与样本人口的变化和平均年龄不具有可比性;
您不希望模型结果在概念上发生变化,例如收入以美分而非美元报价,或测量以英寸和英尺为单位而不是以米为单位;
但是,普通的PCA对规模和位置很敏感;例如,这是对具有相关性.4
的二维标准正态变量的PCA分析;
红线代表加载矢量的方向;显然,第一个主要组成部分是捕获联合数据中的最高变化,并正确地给予每个向量相等的份额;
但是,如果我们将人口2个单位向右移动,情况会发生巨大变化; (相当于将第一个向量的平均值增加2个单位):
从技术上讲,我们拥有与以前相同的数据,但现在第一个主要组成部分基本上捕获了第一个向量具有非零均值的事实;
类似地,如果第一个向量按比例缩放2:
可以看出,第一个向量的权重是第二个向量的4倍,只是因为它具有更高的方差。
这表明在进行PCA之前规范化规模和从数据中去除平均值的重要性;
尽管如此,仍然可以提出某些情况,即解释因素的相对位置和规模在分析中具有有用的信息,并且不应该从数据中删除它们。