使用Gensim对多个语料库进行潜在Dirichlet分配

时间:2015-05-31 22:25:56

标签: python lda topic-modeling gensim

我有两个与LDA使用 gensim 相关的问题。

1)如何使用一个语料库创建一个模型,保存它,然后通过在其上训练模型将其扩展到另一个语料库?有可能吗?

2)LDA可以用于对看不见的文档进行分类,还是需要通过将其包含在语料库中来再次创建模型?是否有在线方式来实现并快速查看更改?

我对LDA有一个相当基本的了解,并使用 lda gensim 库将其用于简单语料库的主题建模。请指出问题中的任何概念上的不一致。谢谢!

1 个答案:

答案 0 :(得分:1)

我觉得这很有帮助。 Gensim允许将额外的语料库添加(更新)到现有的LDA模型。该模块允许从训练语料库中估计LDA模型,并在新的,看不见的文档上推断主题分布。这在这里描述 -

https://radimrehurek.com/gensim/models/ldamodel.html

此外,该算法是流式的,可以处理大于RAM的语料库。它还有一个多核实现来加速这个过程。

lda = LdaModel(corpus, num_topics=10)

lda.update(other_corpus)

这就是模型的更新方式。