Question

我有两个与LDA使用 gensim 相关的问题。

1）如何使用一个语料库创建一个模型，保存它，然后通过在其上训练模型将其扩展到另一个语料库？有可能吗？

2）LDA可以用于对看不见的文档进行分类，还是需要通过将其包含在语料库中来再次创建模型？是否有在线方式来实现并快速查看更改？

我对LDA有一个相当基本的了解，并使用 lda 和 gensim 库将其用于简单语料库的主题建模。请指出问题中的任何概念上的不一致。谢谢！

Answer 1

我觉得这很有帮助。 Gensim允许将额外的语料库添加（更新）到现有的LDA模型。该模块允许从训练语料库中估计LDA模型，并在新的，看不见的文档上推断主题分布。这在这里描述 -

此外，该算法是流式的，可以处理大于RAM的语料库。它还有一个多核实现来加速这个过程。

lda = LdaModel(corpus, num_topics=10)

lda.update(other_corpus)

这就是模型的更新方式。