使用LDA和Gensim推断新的,看不见的文档的主题分布

时间:2017-07-28 18:42:23

标签: python lda

假设我使用基本命令生成了Corpus1的潜在Dirichlet分配模型:

ldamodel = gensim.models.ldamodel.LdaModel(corpus1, num_topics=25, id2word = dictionary, passes=50, minimum_probability=0)

我的问题是,如何将新文件归类为“Corpus2'?”

我正在尝试使用以下命令print(ldamodel[Corpus2[1]])来获取第一个文档的分发但是我收到以下错误:

ValueError: not enough values to unpack (expected 2, got 1)

对于对象Corpus2应该是的类,我感到非常困惑。任何有关在何处可以找到更多信息或教程的建议都非常欢迎

1 个答案:

答案 0 :(得分:1)

我遇到过类似的问题。确保corpus2与corpus1具有相同的表示形式。 从它的外观来看,我猜测Corpus2 [1]是出现在文档中的单词列表。矢量化相同。执行tf-idf转换,然后将其提供给模型。这样,它有两个要素。 (word_id,tf-idf value)