我有两个与LDA使用 gensim 相关的问题。
1)如何使用一个语料库创建一个模型,保存它,然后通过在其上训练模型将其扩展到另一个语料库?有可能吗?
2)LDA可以用于对看不见的文档进行分类,还是需要通过将其包含在语料库中来再次创建模型?是否有在线方式来实现并快速查看更改?
我对LDA有一个相当基本的了解,并使用 lda 和 gensim 库将其用于简单语料库的主题建模。请指出问题中的任何概念上的不一致。谢谢!
答案 0 :(得分:1)
我觉得这很有帮助。 Gensim允许将额外的语料库添加(更新)到现有的LDA模型。该模块允许从训练语料库中估计LDA模型,并在新的,看不见的文档上推断主题分布。这在这里描述 -
https://radimrehurek.com/gensim/models/ldamodel.html
此外,该算法是流式的,可以处理大于RAM的语料库。它还有一个多核实现来加速这个过程。
lda = LdaModel(corpus, num_topics=10)
lda.update(other_corpus)
这就是模型的更新方式。