PCA主成分与原始变量之间的对应关系

时间:2017-03-02 21:14:54

标签: python scikit-learn pca

我想将PCA应用于讨人喜欢的泰坦尼克号dataset

现在我只是选择具有数值并删除NaN值的列,所以我有五个变量,如果我们忽略了变量变量,实际上是四个变量(' Survived')。 / p>

enter image description here

如果我使用PCA拍摄了五个组件,我将其加载到DataFrame df中:

pca_model = PCA(n_components=5)
pca_model.fit(df)
pca_model.explained_variance_ratio_

[  9.30197643e-01   6.93699966e-02   2.24377672e-04   1.49076254e-04
   5.89069784e-05]

我得到了93%的差异来自第一个组件。 是否有可能从原始变量中获取相同的值?例如。年龄 - > 0.3的方差      票价 - > 0.6

我现在可以通过每个原始变量给出主要成分的百分比吗?

1 个答案:

答案 0 :(得分:1)

PCA的每个组件都是所有原始变量的线性组合。您可以使用pca_model.components_观察每个原始变量在不同PCA组件中的角色。