我正在使用gensim lda进行主题建模并获得如下结果:
主题1:word1 word2 word3 word4
主题2:word4 word1 word2 word5
主题3:word1 word4 word5 word6
但是,在相同的lda上使用mallet不会在主题之间产生重复的单词。我有大约20个文件,每个文字都有> 1000个单词,我培训了lda。如何摆脱多个主题中出现的单词?
答案 0 :(得分:0)
在LDA中,所有单词都是所有主题的一部分,但概率不同。你可以定义你的单词打印的最小概率,但如果mallet在主题中没有提出至少几个“重复”单词,我会非常惊讶。确保对gensim和mallet使用相同的参数。