我正在使用python的statsmodels包进行线性回归。在R^2
,p
等的输出中,还存在“log-likelihood”。在文档中,这被描述为“拟合模型的似然函数的值”。我已经看了一下源代码并且不太了解它在做什么。
阅读有关似然函数的更多信息,我仍然对这个“对数似然”值可能意味着或将用于什么的概念非常模糊。所以有几个问题:
在线性回归的情况下,似然函数的值是否与参数的值(在这种情况下为beta
)相同?这似乎是根据导致等式12的以下推导:http://www.le.ac.uk/users/dsgp1/COURSES/MATHSTAT/13mlreg.pdf
知道似然函数的价值有什么用?是否与具有相同响应和不同预测变量的其他回归模型进行比较?实际的统计学家和科学家如何使用statsmodels吐出的对数似然值?
答案 0 :(得分:1)
可能性(以及扩展对数似然)是统计学中最重要的概念之一。它用于一切。
对于您的第一点,可能性与参数的值不同。可能性是指给定一组参数估计的整个模型的可能性。它是通过获取一组参数估计值,计算每个参数估计值的概率密度,然后将所有观测值的概率密度相乘来计算出来的(这是从概率论中得出的P(A和B)= P(A)P( B)如果A和B是独立的)。在实践中,这对线性回归和推导显示的含义是,您采用一组参数估计(beta,sd),将它们插入到正常的pdf中,然后计算每组观察的密度y参数估计。然后,将它们相乘。通常,我们选择使用对数似然因为它更容易计算,因为我们可以求和(log(a * b)= log(a)+ log(b))而不是乘法,这在计算上更快。此外,我们倾向于最小化负对数似然(而不是最大化正数),因为优化器有时在最小化方面比在最大化方面更好。
为了回答你的第二点,log-likelihood几乎用于所有事情。这是我们用于查找大量模型的参数估计(最大似然估计)的基本数量。对于简单线性回归,这些估计结果与最小二乘法相同,但对于更复杂的模型,最小二乘法可能不起作用。它还用于计算AIC,它可用于比较具有相同响应和不同预测变量的模型(但是会对参数数量进行惩罚,因为更多参数=更好地适合,无论如何)。