python - 如何使用csr_matrix初始化gensim语料库变量？

时间：2013-03-27 22:12:52

标签： python scikit-learn document-classification lda gensim

我将X作为csr_matrix使用scikit的tfidf矢量化器获得，而y是一个数组

我的计划是使用LDA创建功能，但是，我没有找到如何使用X作为csr_matrix初始化gensim的语料库变量。换句话说，我不想下载gensim文档中显示的语料库，也不想将X转换为密集矩阵，因为它会消耗大量内存并且计算机可能会挂起。

简而言之，我的问题如下，

答案 0 :(得分：8)

Gensim有一个半隐藏的功能，可以为你做这件事：

“class gensim.matutils.Sparse2Corpus（sparse，documents_columns = True）将scipy.sparse格式的矩阵转换为流式gensim语料库。“

我使用使用CountVectorizer提取的语料库，然后加载到gensim中，取得了一些成功。