在vowpal wabbit中设置LDA模型的超参数

时间:2015-07-22 11:38:14

标签: apache-spark lda vowpalwabbit

我是典型的常规Spark用户。在Spark's LDA中,有超参数代表

  

docConcentration:先前过度文档针对主题的分布的超参数。目前必须是> 1,较大的值可以促进更顺畅的推断分布。   topicConcentration:先前超过主题在术语(单词)上的分布的超参数。目前必须是> 1,较大的值可以促进更顺畅的推断分布。

对应于文献中通常分配的$ \ alpha $和$ \ beta $参数,其中(和$ k $ - 主题数量)LDA模型的对数似然函数在收敛过程中得到优化。 / p>

有谁知道在vowpal wabbit's LDA模型之前是否有任何选项可以设置这样的参数/参数?

2 个答案:

答案 0 :(得分:1)

检查this description of vw lda.! 我认为第13张幻灯片中提到的参数可能是您正在寻找的参数。

答案 1 :(得分:0)

为了完整起见,LDA 实现提供了以下超参数:

Latent Dirichlet Allocation:
  --lda arg                             Run lda with <int> topics

  --lda_alpha arg (=0.100000001)        Prior on sparsity of per-document topic
                                        weights
  --lda_rho arg (=0.100000001)          Prior on sparsity of topic 
                                        distributions
  --lda_D arg (=10000)                  Number of documents
  --lda_epsilon arg (=0.00100000005)    Loop convergence threshold
  --minibatch arg (=1)                  Minibatch size, for LDA
  --math-mode arg (=0)                  Math mode: simd, accuracy, fast-approx
  --metrics arg (=0)                    Compute metrics

您可以找到实现细节的源代码 here

或者直接跳转到 source code of vw utility,它提供的参数略有不同。