我在lda distibution中使用对称alpha训练了一个主题模型:
model = gensim.models.ldamodel.LdaModel(bows, num_topics = 20, id2word = dictionary, passes = 100)
我可以看到:
model.alpha
array([ 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05,
0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05,
0.05, 0.05])
其中
numpy.sum(model.alpha)
1.0000000000000002
我不太明白gensim如何允许降低alpha参数以允许每个文档混合更少的主题?
答案 0 :(得分:1)
看作docs
似乎gensim.models.ldamodel.LdaModel
的{{1}}参数默认为alpha
。您可以显式提供alpha数组,也可以将其设置为'symmetric'
,它将从您的数据中学习先验。
我建议用'auto'
来尝试让它学习先辈。