在将它们投影到模型主题之前,是否需要转换看不见的文档?

时间:2015-06-09 21:15:32

标签: python tf-idf lda gensim

所以我创建了一个普通的弓语料库,按照gensim要求的格式生成文档(see here。)

然而,这些文件有很多经常被使用的单词。所以我想用tfidf来平衡它。

所以我做了类似

的事情
tfidf_model = TfidfModel(corpus)
new_corpus = tfidf_model[corpus]

现在我想训练我的LDA

lda = LdaModel(corpus=new_corpus, num_topics=16)

它训练和收敛很好......很棒。现在我有一个新的看不见的文档,我想投射到我的lda主题。我是否始终需要先使用tfidf_model投放此新文档?即。

transformed_doc = tfidf_model[unseen_doc]
projections = lda[transformed_doc]

或者gensim可以获取原作并知道首先应用tfidf然后将项目应用到lda

projections = lda[unseen_doc]

gensim文档对于模型是否知道任何其他先前的转换应用于语料库有点不清楚。

0 个答案:

没有答案