生成模型和推理

时间:2016-10-30 20:43:29

标签: lda topic-modeling

我在这里看hLDA模型: https://papers.nips.cc/paper/2466-hierarchical-topic-models-and-the-nested-chinese-restaurant-process.pdf

我对生成模型的工作方式有疑问。什么是生成模型的输出以及如何在推理(吉布斯采样)阶段使用它。我正在与生成模型和推理部分混淆,我无法区分它们。

我是这个领域的新手,任何有助于明确概念的参考文章或论文都非常有用。

1 个答案:

答案 0 :(得分:0)

为了了解这种类型的贝叶斯模型是如何工作的,我推荐David Blei的原始2003年LDA论文(谷歌学者“Latent Dirichlet Allocation”,它将出现在顶部附近)。他们使用变分推断(而不是Gibbs采样)来估计“后验”(你可以称之为“最适合的解决方案”),但是使用生成模型的原理得到了很好的解释。

简而言之,贝叶斯主题模型的工作方式如下:您假设您的数据是由某些“生成模型”创建的。该模型描述了用于生成数据的概率过程,并且具有一些未指定的“潜在”变量。在主题模型中,这些变量是您尝试查找的“主题”。我们的想法是根据手头的数据找到“主题”最可能的值。

在贝叶斯推断中,这些潜在变量的最可能值被称为“后验”。严格来说,后验实际上是潜在变量可能值的概率分布,但常用的方法是使用最可能的值集,称为“最大后验”或MAP估计。

请注意,对于主题模型,您获得的是对真实MAP值的估计。许多潜在的值,特别是那些接近于零的潜在值,基本上都是噪音,并且不能被认真对待(除了接近于零)。这是更大的价值更有意义。