我是典型的常规Spark用户。在Spark's LDA中,有超参数代表
docConcentration
:先前过度文档针对主题的分布的超参数。目前必须是> 1,较大的值可以促进更顺畅的推断分布。topicConcentration
:先前超过主题在术语(单词)上的分布的超参数。目前必须是> 1,较大的值可以促进更顺畅的推断分布。
对应于文献中通常分配的$ \ alpha $和$ \ beta $参数,其中(和$ k $ - 主题数量)LDA模型的对数似然函数在收敛过程中得到优化。 / p>
有谁知道在vowpal wabbit's LDA模型之前是否有任何选项可以设置这样的参数/参数?
答案 0 :(得分:1)
检查this description of vw lda.! 我认为第13张幻灯片中提到的参数可能是您正在寻找的参数。
答案 1 :(得分:0)
为了完整起见,LDA 实现提供了以下超参数:
Latent Dirichlet Allocation:
--lda arg Run lda with <int> topics
--lda_alpha arg (=0.100000001) Prior on sparsity of per-document topic
weights
--lda_rho arg (=0.100000001) Prior on sparsity of topic
distributions
--lda_D arg (=10000) Number of documents
--lda_epsilon arg (=0.00100000005) Loop convergence threshold
--minibatch arg (=1) Minibatch size, for LDA
--math-mode arg (=0) Math mode: simd, accuracy, fast-approx
--metrics arg (=0) Compute metrics
您可以找到实现细节的源代码 here。
或者直接跳转到 source code of vw utility,它提供的参数略有不同。