应用错误收集

为了了解这种类型的贝叶斯模型是如何工作的，我推荐David Blei的原始2003年LDA论文（谷歌学者“Latent Dirichlet Allocation”，它将出现在顶部附近）。他们使用变分推断（而不是Gibbs采样）来估计“后验”（你可以称之为“最适合的解决方案”），但是使用生成模型的原理得到了很好的解释。

简而言之，贝叶斯主题模型的工作方式如下：您假设您的数据是由某些“生成模型”创建的。该模型描述了用于生成数据的概率过程，并且具有一些未指定的“潜在”变量。在主题模型中，这些变量是您尝试查找的“主题”。我们的想法是根据手头的数据找到“主题”最可能的值。

在贝叶斯推断中，这些潜在变量的最可能值被称为“后验”。严格来说，后验实际上是潜在变量可能值的概率分布，但常用的方法是使用最可能的值集，称为“最大后验”或MAP估计。

请注意，对于主题模型，您获得的是对真实MAP值的估计。许多潜在的值，特别是那些接近于零的潜在值，基本上都是噪音，并且不能被认真对待（除了接近于零）。这是更大的价值更有意义。

生成模型和推理

1 个答案: