如何比较python中的层次回归模型?

时间:2020-07-07 14:10:05

标签: python statistics statsmodels anova

我拟合了两个回归模型,一个模型只有一个预测变量,另一个模型有3个预测变量。现在,我想比较这两个模型。我怎样才能做到这一点?我知道如何在R中做到这一点,但不确定如何在python中做到这一点。这是R中用于比较两个模型的代码-

class A{
    private B b;

    @Inject
    public A(B b)
    {
        this.b = b;
    }
}

class B{
    private A a;

    @Inject
    public B() { }

    @Inject
    public void injectA(A a)
    {
        this.a = a;
    }
}

结果-

anova(albumSales.2, albumSales.3)

基于以上结果,我们可以看到,与albumSales.2相比,albumSales.3显着提高了模型对数据的拟合度,F(2,196)= 96.44,p <.001。

如何在python中做到这一点?

2 个答案:

答案 0 :(得分:2)

在方差分析中,您基本上可以计算RSS中的差异。 您可以在vignette for ANOVA in statsmodels下查看更多信息:

import pandas as pd
import seaborn as sns
import numpy as np

iris = sns.load_dataset('iris')

from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm

iris.head()

    sepal_length    sepal_width petal_length    petal_width species
0   5.1 3.5 1.4 0.2 setosa
1   4.9 3.0 1.4 0.2 setosa
2   4.7 3.2 1.3 0.2 setosa
3   4.6 3.1 1.5 0.2 setosa
4   5.0 3.6 1.4 0.2 setosa

我们运行两个模型并进行方差分析:

full_lm = ols("sepal_length ~ petal_length+petal_width", data=iris).fit()
reduced_lm = ols("sepal_length ~ petal_length", data=iris).fit()
anova_lm(reduced_lm,full_lm)

    df_resid    ssr df_diff ss_diff F   Pr(>F)
0   148.0   24.525034   0.0 NaN NaN NaN
1   147.0   23.880694   1.0 0.64434 3.9663  0.048272

它会发出一些警告(您可以在我上面链接的网站上看到它),因为对于第一行,它无法计算F等。

请注意,这与其他答案中建议的计算Rsquare不同。需要注意的一个重要问题是,如果您包含更多的项,则从理论上讲,R平方会增加,并且您想查看这些项是否在很大程度上解释了其他方差,这就是为什么使用方差分析的原因。

答案 1 :(得分:1)

我不知道可以直接比较两个模型的单个函数作为R中的示例,但是Scikit-Learn包是用于数据科学和机器学习的非常常用的Python包。它支持与回归模型相关的各种指标,使您可以创建自己的比较。

例如,它支持R 2 度量。以下示例来自Scikit的documentation on R2

>>> from sklearn.metrics import r2_score
>>> y_true = [3, -0.5, 2, 7]
>>> y_pred = [2.5, 0.0, 2, 8]
>>> r2_score(y_true, y_pred)
0.948...
>>> y_true = [[0.5, 1], [-1, 1], [7, -6]]
>>> y_pred = [[0, 2], [-1, 2], [8, -5]]
>>> r2_score(y_true, y_pred,
...          multioutput='variance_weighted')
0.938...
>>> y_true = [1, 2, 3]
>>> y_pred = [1, 2, 3]
>>> r2_score(y_true, y_pred)
1.0
>>> y_true = [1, 2, 3]
>>> y_pred = [2, 2, 2]
>>> r2_score(y_true, y_pred)
0.0
>>> y_true = [1, 2, 3]
>>> y_pred = [3, 2, 1]
>>> r2_score(y_true, y_pred)
-3.0

通过对两个模型进行此操作,您可以获得与R相似的比较结果。