我想将PCA应用于讨人喜欢的泰坦尼克号dataset
现在我只是选择具有数值并删除NaN值的列,所以我有五个变量,如果我们忽略了变量变量,实际上是四个变量(' Survived')。 / p>
如果我使用PCA拍摄了五个组件,我将其加载到DataFrame df中:
pca_model = PCA(n_components=5)
pca_model.fit(df)
pca_model.explained_variance_ratio_
[ 9.30197643e-01 6.93699966e-02 2.24377672e-04 1.49076254e-04
5.89069784e-05]
我得到了93%的差异来自第一个组件。 是否有可能从原始变量中获取相同的值?例如。年龄 - > 0.3的方差 票价 - > 0.6
我现在可以通过每个原始变量给出主要成分的百分比吗?
答案 0 :(得分:1)
PCA的每个组件都是所有原始变量的线性组合。您可以使用pca_model.components_
观察每个原始变量在不同PCA组件中的角色。