在使用像pLSA / LDA这样的主题模型时我有一个问题:在我们得到每个主题中每个单词的分布后,如何推断新文档的主题分布?我试过"折叠" Gibbs在使用LDA时进行采样,但是当看不见的文档很短时,这种方法不起作用,因为主题随机分配给文档中包含的每个单词。例如,考虑具有两个主题的模型,存在令牌w,其中p(w | z1)= 0.09并且p(w | z2)= 0.01。那么一个只包含一个单词w的文档,它的p(z | d)主要是(1.0,0)和(0,1.0)有时因为某种程度上采样过程会将w的主题分配给topic2。我们如何处理这种情况?
答案 0 :(得分:0)
我不确定你对“随机性”是什么意思,因为在应用Gibbs采样之后,主题不应该是随机的,它们应该是有意义的。也许你执行算法的次数少于必要的次数?
此外,如果您只有两个主题,概率应总和为1。 似乎合乎逻辑的是,如果对于给定的令牌 w ,对于z1和z2,概率分别为0.9和0.1,则该词的90%被分类为z1,10%被分类为z2。虽然只有 w 的文件属于极端情况,但我相信上述内容仍然有效。
我完全不了解您的问题,但也有其他方法可以近似LDA,例如变分算法。
This可能会帮助您对新实例进行推理。