在LDA模型中,如何从Dirichlet先前权重(alpha)中提取多项式参数(theta)?

时间:2013-08-12 06:18:55

标签: parameters lda topic-modeling dirichlet

我是一名正在研究LDA(Latent Dirichlet Allocation)模型的新生。但是,我遇到了一个问题。

如何从alpha中提取theta?

theta〜 Dir (alpha)

根据我的简短理解,变量theta是一个长度为K的向量,其组成部分代表文档中的主题比例。 并且,每个文档的权限彼此不同。 并且,在语料库级别,alpha仍然是K向量,而theta是M(文档数量)由K(主题#)大小矩阵。

第一个问题:我上面提到的是真的吗?

第二个问题:如果为真,超过文件,如何从相同的Dirichlet分布中提取不同的thetas(K-vectors)?

1 个答案:

答案 0 :(得分:2)

第一个回答:是的,你是完全正确的。

第二个答案:正如你所提到的,alpha是K向量。当我们从Dirichlet分布中取样时,我们得到另一个 K向量。值本身将取决于alpha的值,但它们总和为1(这是它们如何被视为一个文档中所有主题的比例)。我们每个文档采样一次,以获得M个向量 - 这就是我们如何获得MxK矩阵theta。

我们从Dirichlet分布采样得到的矢量长度取决于其参数的长度,alpha。