我使用sklearn LatentDirichletAllocation包尝试进行一些主题建模。
我的目标是在我的语料库中生成主题如何随时间变化的情节。
我试图复制this example的LDA部分,所以我的代码就像这样结束了:
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
learning_method='online',
learning_offset=50.,
random_state=0,
n_jobs=2)
t0 = time()
transformed_X = lda.fit_transform(tf)
当我查看transformed_X时,它是一个n_document数组的数组,每个数组的长度为n_topics。我期望每个数组都是该文档主题的概率分布,并且它们总和为1.但是,情况并非如此,并且每个数组的总和的平均值为83.所以,我和#39;我想知道: