我们可以在R中使用{tm}包来删除DTM / TDM中的稀疏术语,但是,我不知道在任何Python包中是否存在执行相同操作的等效命令。
使用python创建DTM
corpus = [dictionary.doc2bow(text) for text in texts]
如何删除稀疏术语?
所以我可以在python中使用filter_extreme,我应该改变这样的代码:
dictionary = corpora.Dictionary(dictionary_words)
dictionary.filter_extremes(no_below=3)
corpus = [dictionary.doc2bow(t) for t in dictionary_words]