使用两个API进行逻辑回归时,它们给出不同的系数。 即使使用这个简单的示例,它在系数方面也不会产生相同的结果。而且我听从同一主题的旧建议中的建议,例如在sklearn中为参数C设置一个较大的值,因为它会使处罚几乎消失(或设置刑罚=“无”)。
import pandas as pd
import numpy as np
import sklearn as sk
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm
n = 200
x = np.random.randint(0, 2, size=n)
y = (x > (0.5 + np.random.normal(0, 0.5, n))).astype(int)
display(pd.crosstab( y, x ))
max_iter = 100
#### Statsmodels
res_sm = sm.Logit(y, x).fit(method="ncg", maxiter=max_iter)
print(res_sm.params)
#### Scikit-Learn
res_sk = LogisticRegression( solver='newton-cg', multi_class='multinomial', max_iter=max_iter, fit_intercept=True, C=1e8 )
res_sk.fit( x.reshape(n, 1), y )
print(res_sk.coef_)
例如,我只运行上面的代码,为statsmodels获得1.72276655,为sklearn获得1.86324749。而且,当多次运行时,它总是给出不同的系数(有时比其他系数更小,但无论如何)。
因此,即使在这个玩具示例中,两个API给出的系数也不同(所以比值比),而实际数据(此处未显示)几乎使它“失控” ...
我错过了什么吗?如何产生相似的系数,例如至少在逗号后的一个或两个数字处产生?
答案 0 :(得分:8)
您的代码存在一些问题。
首先,这里显示的两个模型不等效:尽管您将scikit-learn LogisticRegression
与fit_intercept=True
(这是默认设置)匹配,您不会使用statsmodels这样做;来自statsmodels docs:
默认情况下不包括拦截器,用户应添加。参见
statsmodels.tools.add_constant
。
这似乎是一个经常引起混淆的地方-例如,参见scikit-learn & statsmodels - which R-squared is correct?(还有答案)。
另一个问题是,尽管您处于二进制分类设置中,但您在multi_class='multinomial'
中要求LogisticRegression
,但事实并非如此。
第三个问题是,如相关交叉验证线程Logistic Regression: Scikit Learn vs Statsmodels中所述:
在scikit-learn中无法关闭正则化,但是可以通过将调整参数C设置为较大的数量来使其无效。
这使得两个模型在原理上再次变得不可比,但是您已经在此处通过设置C=1e8
成功解决了它。实际上,自那时以来(2016),scikit-learn确实添加了一种关闭正则化的方法,方法是根据docs设置penalty='none'
:
如果为“无”(liblinear求解器不支持),则不应用任何正则化。
现在应将其视为关闭正则化的规范方法。
因此,将这些更改合并到您的代码中,我们可以:
np.random.seed(42) # for reproducibility
#### Statsmodels
# first artificially add intercept to x, as advised in the docs:
x_ = sm.add_constant(x)
res_sm = sm.Logit(y, x_).fit(method="ncg", maxiter=max_iter) # x_ here
print(res_sm.params)
哪个给出结果:
Optimization terminated successfully.
Current function value: 0.403297
Iterations: 5
Function evaluations: 6
Gradient evaluations: 10
Hessian evaluations: 5
[-1.65822763 3.65065752]
,其中数组的第一个元素为截距,第二个为x
的系数。在为scikit学习时,我们有:
#### Scikit-Learn
res_sk = LogisticRegression(solver='newton-cg', max_iter=max_iter, fit_intercept=True, penalty='none')
res_sk.fit( x.reshape(n, 1), y )
print(res_sk.intercept_, res_sk.coef_)
结果为:
[-1.65822806] [[3.65065707]]
在机器的数值精度范围内,这些结果实际上是相同的。
针对np.random.seed()
的不同值重复该过程不会改变上面显示的结果的本质。