我应该为PCA选择几个主要组件?

时间:2019-03-07 12:30:52

标签: machine-learning nlp pca svd

我的数据框几乎没有分类和数字特征。为此,我将文本列的BoW(CountVectorizer)连接起来,产生了56,000多个功能。因此,我正在考虑采用PCA来减少功能数量。

我认为在这里选择正确数量的主成分至关重要,但是我对要考虑多少n_components感到困惑。

1 个答案:

答案 0 :(得分:3)

您可以绘制一个图形,其中包含前k个成分和k个成分的方差。请根据这些成分中包含的方差选择k.95%或更高的比例是理想的。