标签: lda
我们正在使用gensim运行LDA,我们因困惑而得到一些奇怪的结果。我们发现,随着主题数量的增加,困惑(和主题差异)都会增加 - 我们预计它会下降。我们尝试过很多不同数量的主题1,2,3,4,5,6,7,8,9,10,20,100。我们也玩过alpha(对称和自动)并且保持相同的结果。
我们的文件有20多个单词,但大多数是20-30。这些文件是否太小,LDA无法工作?
我们是否应该尝试增加培训数据量(我们运行的是100k)?或者增加通过次数(但看起来已经收敛)?
由于