标签: python pandas numpy scikit-learn scipy
我正在将词袋算法应用于一堆文档,在进行数据预处理之后,我仍然拥有6723行和8356列的稀疏矩阵。这些行由于词汇表的大小而有很多零,那么如何减少列的数量?