规范化主题文档概率text2vec R.

时间:2018-02-20 15:56:41

标签: r text2vec

我试图在使用R中的text2vec包运行lda模型后找出主题文档概率。

以下命令生成模型:

lda_model <-  LDA$new(n_topics = n_topics, doc_topic_prior = 0.1, topic_word_prior = 0.01)
doc_topic_distr <- lda_model$fit_transform(x = quantdfm, n_iter = 2000, convergence_tol = 0.00001, n_check_convergence = 10, progressbar = FALSE)

quantdfm是使用quanteda包的dtm,我将它插入$ fit_transform方法中。

我注意到doc_topic_distr包含主题文档概率(甚至没有要求规范化)。它是否正确?因为在之前的帖子中How to get topic probability table from text2vec LDA,Dmitriy Selivanov要求使用以下方法得出这样的概率:

doc_topic_prob = normalize(doc_topic_distr, norm = "l1")

当我使用与上面相同的命令时,doc_topic_distr和doc_topic_prob具有相同的值(我认为前者包含整数而不是后者中的分数)。

请建议这是否是代码的预期行为,或者我在这里遗漏了一些内容。

感谢。

1 个答案:

答案 0 :(得分:0)

根据最新文档,LDA fit_transform返回主题概率。