如何减少gensim中的字典大小?

时间:2017-04-19 20:43:09

标签: python dictionary gensim

我在20newsgroups数据集上使用python gensim包拟合了一个Hierarchical Dirichlet Process(HDP)主题模型,我发现我的主题信息量不大(顶级词概率非常小)。

我使用标准文本预处理,包括标记化,停用词删除和词干提取。我在想减少字典大小可以帮助生成更有意义的主题。有哪些方法可以减少gensim中的字典大小?

1 个答案:

答案 0 :(得分:3)

我发现以下代码有助于大幅减少字典大小并实现更有意义的主题:

dictionary = corpora.Dictionary(docs, prune_at=num_features)
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features)
dictionary.compactify()

减少字典大小的第一次尝试是prune_at参数,第二次尝试是在以下位置定义的filter_extremes()函数: gensim dictionary