出现在lda中所有主题的单词

时间:2018-02-07 22:08:08

标签: python gensim lda topic-modeling

我正在使用gensim lda进行主题建模并获得如下结果:

主题1:word1 word2 word3 word4

主题2:word4 word1 word2 word5

主题3:word1 word4 word5 word6

但是,在相同的lda上使用mallet不会在主题之间产生重复的单词。我有大约20个文件,每个文字都有> 1000个单词,我培训了lda。如何摆脱多个主题中出现的单词?

1 个答案:

答案 0 :(得分:0)

在LDA中,所有单词都是所有主题的一部分,但概率不同。你可以定义你的单词打印的最小概率,但如果mallet在主题中没有提出至少几个“重复”单词,我会非常惊讶。确保对gensim和mallet使用相同的参数。