在Gensim

时间:2016-07-27 18:00:36

标签: python python-2.7 nlp gensim

我使用Gensim进行NLP任务,目前我有一个包含空文档的语料库。我不想重新运行我的代码,虽然这是一个选项,并且只想删除没有任何内容的文档。这些文件已经保存为TF-IDF语料库,并想知道是否有办法删除这些空文件。我可以找出哪些文件是空的但是语料库文件是迭代器而不是任何类型的数据结构,即列表。谢谢,

卡梅伦

1 个答案:

答案 0 :(得分:2)

您可以尝试将语料库转换为numpy矩阵,如下所示:

numpy_matrix = gensim.matutils.corpus2dense(corpus, num_terms=number_of_corpus_features)

然后删除相应的列(全部为零的列)。然后转换回gensim语料库继续:

corpus = gensim.matutils.Dense2Corpus(numpy_matrix)

如果您打算在当前环境中构建更多语料库,最好修改语料库创建过程,这样您就不必每次都这样做了,但我确定您和&#已经想到了这一点。