我是一名正在研究LDA(Latent Dirichlet Allocation)模型的新生。但是,我遇到了一个问题。
如何从alpha中提取theta?
theta〜 Dir (alpha)
根据我的简短理解,变量theta是一个长度为K的向量,其组成部分代表文档中的主题比例。 并且,每个文档的权限彼此不同。 并且,在语料库级别,alpha仍然是K向量,而theta是M(文档数量)由K(主题#)大小矩阵。
第一个问题:我上面提到的是真的吗?
第二个问题:如果为真,超过文件,如何从相同的Dirichlet分布中提取不同的thetas(K-vectors)?
答案 0 :(得分:2)
第一个回答:是的,你是完全正确的。
第二个答案:正如你所提到的,alpha是K向量。当我们从Dirichlet分布中取样时,我们得到另一个 K向量。值本身将取决于alpha的值,但它们总和为1(这是它们如何被视为一个文档中所有主题的比例)。我们每个文档采样一次,以获得M个向量 - 这就是我们如何获得MxK矩阵theta。
我们从Dirichlet分布采样得到的矢量长度取决于其参数的长度,alpha。