如何推导边际似然函数?

时间:2014-05-16 17:42:29

标签: machine-learning probability

我对边际似然函数的''theta'积分有点困惑(http://en.wikipedia.org/wiki/Marginal_likelihood,Section:“应用程序” - “贝叶斯模型比较”,本页的第三个等式):

为什么给定M的x的概率等于积分以及如何推导出等式?

1 个答案:

答案 0 :(得分:1)

这个积分只不过是连续形式的law of total probability。因此,它可以直接从概率公理推导出来。鉴于链接中的第二个公式(维基百科),要达到您正在寻找的公式,您必须做的唯一事情是用一个积分替换离散状态的和。

那么,它直观地意味着什么?假设数据X的模型,它取决于变量theta。对于给定的θ,数据集X的概率因此是p(X |θ)。由于您不确定theta的确切值,您可以选择它遵循由(常量)参数alpha指定的分布p(theta | alpha)。现在,X的分布直接由alpha确定(这应该是明确的......只要问问自己是否还有其他可能依赖的东西......并且什么也找不到)。因此,您可以通过积分变量theta来计算其确切影响。这就是总概率定律的规律。

如果你没有通过这个解释得到它,我建议你玩离散状态的条件概率,这实际上经常导致明显的结果。然后,对连续案例的扩展是直截了当的。


编辑:第三个等式显示了我在上面尝试解释的相同内容。你有一个模型M.这个模型有参数theta由p(theta | M)分配 - 你也可以写这个p_M(theta),例如。

这些参数通过p(X |θ,M)确定数据X的分布......即,每个θ给出不同的X分布(对于所选择的模型M)。但是,这种形式不方便使用。你想要的是关于模型M的概括陈述,而不是关于theta的各种可能选择。所以,在某种程度上,你现在想知道给定模型M的X的平均值(注意,在模型M中也包括其参数的选定分布。例如,M不仅仅意味着“神经网络”,而是而是像“神经网络,权重均匀分布在[-1,1]”中。

获得这个“平均值”只需要基本统计:只需取模型p(X | theta,M),乘以密度p(theta | M),并积分在θ上。这基本上是您对统计中的任何平均值所做的。总之,你到达边缘化p(x | M)。