使用潜在Dirichlet分配来聚类文档

时间:2015-10-26 09:29:10

标签: nlp lda

在使用LDA算法识别所有文档的主题/集群之后,当新文档到达数据库时,我们是否需要再次运行整个过程,或者是否有任何其他方式可以通过模型直接映射具有预定义集群/主题的新doc

2 个答案:

答案 0 :(得分:1)

获得经过培训的主题模型后,您可以输入新文档或一组文档,并计算模型主题的分布。不确定你用于LDA的是什么,但是Python的Gensim库非常好并且有很好的文档记录。有关详细信息,请参阅https://radimrehurek.com/gensim/wiki.html#latent-dirichlet-allocation

答案 1 :(得分:0)

要添加到Lgiro的答案,gensim允许添加新的语料库并更新LDA结果。请参阅gensim中的示例代码:

lda = LdaModel(corpus, num_topics=100)  # train model
print(lda[doc_bow]) # get topic probability distribution for a document
lda.update(corpus2) # update the LDA model with additional documents
print(lda[doc_bow])