我想知道更多关于是否有任何规则来设置LDA模型中的超参数alpha和theta。我运行库gensim
:
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=30, id2word = dictionary, passes=50, minimum_probability=0)
但我对超参数的规范有疑问。根据我在库文档中的红色,两个超参数都设置为1 /主题数。鉴于我的模型有30个主题,两个超参数都设置为共同值1/30。我在描述经济活动的新闻文章中运行模型。出于这个原因,我希望文档主题分布(theta)高(文档中的类似主题),而主题 - 单词分布(alpha)也很高(主题共享许多单词,或者,单词不是对每个主题都如此独占)。出于这个原因,并且鉴于我对超参数的理解是正确的,是正确的规格值的1/30?