应用错误收集

时间：2013-08-12 06:18:55

标签： parameters lda topic-modeling dirichlet

我是一名正在研究LDA（Latent Dirichlet Allocation）模型的新生。但是，我遇到了一个问题。

如何从alpha中提取theta？

theta〜 Dir （alpha）

根据我的简短理解，变量theta是一个长度为K的向量，其组成部分代表文档中的主题比例。并且，每个文档的权限彼此不同。并且，在语料库级别，alpha仍然是K向量，而theta是M（文档数量）由K（主题＃）大小矩阵。

第一个问题：我上面提到的是真的吗？

第二个问题：如果为真，超过文件，如何从相同的Dirichlet分布中提取不同的thetas（K-vectors）？

答案 0 :(得分：2)

第一个回答：是的，你是完全正确的。

第二个答案：正如你所提到的，alpha是K向量。当我们从Dirichlet分布中取样时，我们得到另一个 K向量。值本身将取决于alpha的值，但它们总和为1（这是它们如何被视为一个文档中所有主题的比例）。我们每个文档采样一次，以获得M个向量 - 这就是我们如何获得MxK矩阵theta。

我们从Dirichlet分布采样得到的矢量长度取决于其参数的长度，alpha。