解释sklearn LDA

时间:2016-04-14 15:10:04

标签: python scikit-learn lda

我使用sklearn LatentDirichletAllocation包尝试进行一些主题建模。

我的目标是在我的语料库中生成主题如何随时间变化的情节。

我试图复制this example的LDA部分,所以我的代码就像这样结束了:

lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=5,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0,
                                n_jobs=2)
t0 = time()
transformed_X = lda.fit_transform(tf)

当我查看transformed_X时,它是一个n_document数组的数组,每个数组的长度为n_topics。我期望每个数组都是该文档主题的概率分布,并且它们总和为1.但是,情况并非如此,并且每个数组的总和的平均值为83.所以,我和#39;我想知道:

  1. 这些值代表什么?
  2. 如果我对数组中的值进行规范化,那么它是否与该文档的主题概率分布相对应?

0 个答案:

没有答案