标签: python nlp gensim lda
我正在尝试使用GenSim的LDA模块执行以下任务
“使用一个大文档训练LDA模型并跟踪10个潜在主题。给定一个新的,看不见的文档,预测10个潜在主题的概率分布”。
根据这里的教程:http://radimrehurek.com/gensim/tut2.html,这似乎可以用于语料库中的文档,但我想知道它是否可能出现一个看不见的文档。
谢谢!
答案 0 :(得分:1)
从您发布的文档看起来您可以像这样训练您的模型:
>>> model = models.LdaModel(corpus, id2word=dictionary, num_topics=100)
然后从this page看起来你可以将你的模型应用于"一个看不见的文件"像这样:
>>> doc_lda = model[doc_bow]
其中doc_bow是由doc2bow工具生成的词袋。
doc_bow
doc2bow