在gensim LdaModel中提取主题词概率矩阵

时间:2017-02-17 05:09:35

标签: python gensim lda topic-modeling

我有LDA模型和文档主题概率。

# build the model on the corpus
ldam = LdaModel(corpus=corpus, num_topics=20, id2word=dictionary) 
# get the document-topic probabilities
theta, _ = ldam.inference(corpus)

我还需要为所有主题分配单词,即主题词概率矩阵。有没有办法提取这些信息?

谢谢!

1 个答案:

答案 0 :(得分:4)

主题 - 术语矩阵(lambda)可通过以下方式访问:

topics_terms = ldam.state.get_lambda()

如果您想要概率分布,只需将其标准化:

topics_terms_proba = np.apply_along_axis(lambda x: x/x.sum(),1,topics_terms)