Question

当我通过sm.Logit（在statsmodel库中）运行逻辑回归时，部分结果如下：

伪R-squ。：0.4335

对数似然：-291.08

LL-Null：-513.87

LLR p值：2.978e-96

我怎样才能解释模型的重要性？或者说，解释的能力？我应该使用哪个指标？我在网上搜索过，没有太多关于Pseudo R2和LLR pvalue的信息。我很困惑，我怎么能说我的模型很好。

Answer 1

来自Hands-On Machine Learning for Algorithmic Trading：

Log-Likelihood：这是对数似然函数的最大值。

LL-Null：这是仅包含截距时最大化对数似然函数的结果。它构成了伪 $R^2$ 统计量和对数似然比（LRR）检验的基础（请参见下文）

pseudo- $R^2$ ：这是最小平方下可用的熟悉的 $R^2$ 的替代。它是基于空模型m0和完整模型m1的最大化对数似然函数的比率来计算的，如下所示：

$\rho^2 = 1 - \frac{\log \mathcal{L}(m_1^*)}{\log \mathcal{L}(m_0^*)}$

值从0（当模型不能改善似然性时）到1（模型完全适合且对数似然度最大为0）之间变化。因此，较高的值表示更合适。


LLR：LLR测试通常会比较限制性更强的模型，其计算公式为：

$\mathrm{LLR} = -2 \log(\frac{\mathcal{L}(m_0^*)}{\mathcal{L}(m_1^*)}) = 2(\log \mathcal{L}(m_1^*) - \log \mathcal{L}(m_0^*))$

无效假设是受限模型的性能更好，但p值低表明我们可以拒绝该假设，并且更喜欢完整模型而不是无效模型。这类似于线性回归的F检验（当我们使用MLE估计模型时，也可以使用LLR检验）。



z-statistic：在线性回归输出中起着与t统计量相同的作用，并且均以系数估计值与标准误差之比的形式计算。



p-values：这些假设假设人口系数为零的原假设 $H_0: \beta = 0$ 表示观察检验统计量的概率。

如您所见（以及我的理解方式），这些指标中的许多指标与线性回归案例的指标相对应。此外，正如罗斯已经指出的那样，我建议您检查the statsmodel documentation。

Answer 2

p值：这将允许您测试零假设。低p值（<0.05）表示您可以拒绝原假设。如果您不熟悉它，我建议：https://www.khanacademy.org/math/statistics-probability/significance-tests-one-sample/tests-about-population-mean/v/hypothesis-testing-and-p-values

r-squared：衡量数据与拟合回归线的接近程度。它表示由线性模型解释的变量变化的百分比。

也许如果您要向我们提供有关您所做假设和回归背景的更多详细信息，我们将能够提供更多帮助。

另外2个（对数似然和LL Null），我不太熟悉，但是这里有一些资源可以帮助我们看看：

https://en.wikipedia.org/wiki/Likelihood_function
http://www.statsmodels.org/stable/index.html
https://github.com/statsmodels/statsmodels

Python：如何通过sm.Logit解释逻辑回归的结果

2 个答案: