众所周知,LDA主题建模从数据中学习两个概率矩阵,一个是关于P(w | z)值的akx V矩阵,另一个是关于P(z | d)的D xk矩阵,其中k是主题的数量,V是词汇量大小,D是培训文档的大小。
在阅读former question之后,我了解到论文中提到的方法都非常困难。然而,像朴素贝叶斯这样的独立假设下的简单方法可以如下快速推导出来,并且概率在训练后都是已知的。
p(zi | w1,...,wn)αp(w1,...,wn | zi)* p(zi)=(Πp(wj | zi))* p(zi)为1 < = i< = k ---(1)
p(zi)αΣp(zi | dj)对于1 <= j <= D(假设所有p(dj)相等)---(2)
(a)中。在这个推导中是否存在一些错误或有问题的假设?
(b)中。互联网上是否有任何论文讨论了类似这样的简单方法的性能,与基于重要性抽样,从左到右估算等的其他严格方法相比?