我正在按如下方式运行回归(df
是pandas
数据框):
import statsmodels.api as sm
est = sm.OLS(df['p'], df[['e', 'varA', 'meanM', 'varM', 'covAM']]).fit()
est.summary()
除其他外,这给了我0.942
的R平方。那么我想绘制原始y-values
和拟合值。为此,我对原始值进行了排序:
orig = df['p'].values
fitted = est.fittedvalues.values
args = np.argsort(orig)
import matplotlib.pyplot as plt
plt.plot(orig[args], 'bo')
plt.plot(orig[args]-resid[args], 'ro')
plt.show()
然而,这给了我一个图表,其中值完全关闭。没有任何迹象表明0.9
的R平方。因此,我试图自己手动计算:
yBar = df['p'].mean()
SSTot = df['p'].apply(lambda x: (x-yBar)**2).sum()
SSReg = ((est.fittedvalues - yBar)**2).sum()
1 - SSReg/SSTot
Out[79]: 0.2618159806908984
我做错了吗?或者,为什么我的计算与statsmodels得到的结果相差甚远? SSTot
,SSReg
的值为48084
,35495
。
答案 0 :(得分:9)
如果你的模型中没有包含截距(常数解释变量),statsmodels会根据 un-centered 总和平方来计算R平方,即
tss = (ys ** 2).sum() # un-centred total sum of squares
而不是
tss = ((ys - ys.mean())**2).sum() # centred total sum of squares
结果,R平方会高得多。
这在数学上是正确的。因为,R平方应该表明与简化模型相比,全模型解释了多少变化。如果您将模型定义为:
ys = beta1 . xs + beta0 + noise
然后简化模型可以是:ys = beta0 + noise
,其中beta0
的估算值是样本平均值,因此我们得到:noise = ys - ys.mean()
。这就是 de-meaning 来自具有拦截的模型的地方。
但是来自像这样的模型:
ys = beta . xs + noise
您只能缩减为:ys = noise
。由于noise
被假定为零均值,因此您可能不会减去ys
。因此,简化模型中无法解释的变化是 un-centered 总和平方和。
rsquared
项下记录了here。设置yBar
等于零,我希望你会得到相同的数字。
答案 1 :(得分:0)
如果您的模型是:
a = <yourmodel>.fit()
然后,计算拟合值:
a.fittedvalues
并计算 R 平方:
a.rsquared