所以我创建了一个普通的弓语料库,按照gensim
要求的格式生成文档(see here。)
然而,这些文件有很多经常被使用的单词。所以我想用tfidf来平衡它。
所以我做了类似
的事情tfidf_model = TfidfModel(corpus)
new_corpus = tfidf_model[corpus]
现在我想训练我的LDA
lda = LdaModel(corpus=new_corpus, num_topics=16)
它训练和收敛很好......很棒。现在我有一个新的看不见的文档,我想投射到我的lda主题。我是否始终需要先使用tfidf_model
投放此新文档?即。
transformed_doc = tfidf_model[unseen_doc]
projections = lda[transformed_doc]
或者gensim
可以获取原作并知道首先应用tfidf
然后将项目应用到lda
。
projections = lda[unseen_doc]
gensim
文档对于模型是否知道任何其他先前的转换应用于语料库有点不清楚。