标签: machine-learning nlp pca svd
我的数据框几乎没有分类和数字特征。为此,我将文本列的BoW(CountVectorizer)连接起来,产生了56,000多个功能。因此,我正在考虑采用PCA来减少功能数量。
我认为在这里选择正确数量的主成分至关重要,但是我对要考虑多少n_components感到困惑。
n_components
答案 0 :(得分:3)
您可以绘制一个图形,其中包含前k个成分和k个成分的方差。请根据这些成分中包含的方差选择k.95%或更高的比例是理想的。