对于在不同机器学习算法的上下文中定义似然函数的方式,我有很多困惑。在本次讨论的背景下,我将参考Andrew Ng 229讲义。
到目前为止,这是我的理解。 在分类的背景下,我们有两种不同类型的算法:判别和生成。这两种情况的目标是确定后验概率,即p(C_k | x; w),其中w是参数向量,x是特征向量,C_k是第k类。这些方法是不同的,因为在判别中我们试图直接给出x来解决后验概率。在生成的情况下,我们确定条件分布p(x | C_k)和先前类p(C_k),并使用贝叶斯定理来确定P(C_k | x; w)。
根据我的理解贝叶斯定理采用以下形式:p(参数|数据)= p(数据|参数)p(参数)/ p(数据)其中似然函数是p(数据|参数),后验是p(参数|数据)和先验是p(参数)。 现在在线性回归的背景下,我们有似然函数: p(y | X; w)其中y是目标值的向量,X是设计矩阵。 根据我们如何定义上述似然函数,这是有道理的。
现在转向分类,可能性仍被定义为p(y | X; w)。可能性总是被定义为这样吗? 我们想要的后验概率是每个类的p(y_i | x; w)非常奇怪,因为这显然也是似然函数。
在阅读文本时,似乎总是以不同的方式定义可能性,这让我感到困惑。对于回归与分类或者生成与歧视之间的似然函数应该如何解释是否存在差异?即,在高斯判别分析中定义似然的方式看起来非常不同。
如果有人可以推荐详细介绍的资源,我将不胜感激。
答案 0 :(得分:0)
快速回答是似然函数是一个函数,与看模型中所有参数条件的数据成比例。正如你在线性回归中所说的,它是p(y | X,w),其中w是回归系数的向量,X是你的设计矩阵。
在分类上下文中,您的可能性与P(y | X,w)成正比,其中y是观察到的类标签的向量。每个班级都没有y_i,因为您的训练数据被观察到属于一个特定的班级。根据您的模型规范和模型参数,对于每个观察到的数据点,您应该能够计算查看观察到的类的概率。这是你的可能性。
后验预测分布p(y_new_i | X,y)是你在第4段中想要的概率。这与可能性不同,因为它是某些未观察到的情况的概率,而不是与之相关的可能性。你的训练数据。请注意,我删除了w,因为通常你会想要对它进行边缘化而不是对它进行条件化,因为在训练模型之后估计仍然存在不确定性,你会希望你的预测在这个上边缘化而不是在一个特定值上进行条件化。 / p>
顺便说一下,所有分类方法的目标都不是找到后验分布,只有贝叶斯方法真正关注后验,这些方法必然是生成性的。有很多非贝叶斯方法和大量非概率判别模型。
答案 1 :(得分:0)
与p(a|b)
成比例的a
成比例的任何函数都是b
的似然函数。请注意,p(a|b)
可能会被称为其他内容,具体取决于目前有趣的内容。例如,p(a|b)
也可以称为[{1}}给定a
的后验。这些名字并不重要。