我有一个奇怪的情况scipy.stats.linregress似乎返回一个不正确的标准错误:
from scipy import stats
x = [5.05, 6.75, 3.21, 2.66]
y = [1.65, 26.5, -5.93, 7.96]
gradient, intercept, r_value, p_value, std_err = stats.linregress(x,y)
>>> gradient
5.3935773611970186
>>> intercept
-16.281127993087829
>>> r_value
0.72443514211849758
>>> r_value**2
0.52480627513624778
>>> std_err
3.6290901222878866
Excel返回以下内容:
slope: 5.394
intercept: -16.281
rsq: 0.525
steyX: 11.696
steyX是excel的标准错误函数,返回11.696而不是scipy的3.63。谁知道这里发生了什么?在python中获取回归的标准错误的任何替代方法,而无需转到Rpy ?
答案 0 :(得分:8)
我刚刚得到SciPy用户组的通知,这里的std_err表示梯度线的标准误差,而不是Excel中预测y的标准误差。然而,这个函数的用户应该小心,因为这并不总是这个库的行为 - 它用于输出完全像Excel,并且转换似乎发生在过去几个月。
无论如何仍然在Python中寻找与STEYX相当的东西。
答案 1 :(得分:6)
您可以尝试statsmodels包:
In [37]: import statsmodels.api as sm
In [38]: x = [5.05, 6.75, 3.21, 2.66]
In [39]: y = [1.65, 26.5, -5.93, 7.96]
In [40]: X = sm.add_constant(x) # intercept
In [41]: model = sm.OLS(y, X)
In [42]: fit = model.fit()
In [43]: fit.params
Out[43]: array([ 5.39357736, -16.28112799])
In [44]: fit.rsquared
Out[44]: 0.52480627513624789
In [45]: np.sqrt(fit.mse_resid)
Out[45]: 11.696414461570097
答案 2 :(得分:2)
是的,这是真的 - 梯度的标准估计是linregress返回的;但是,估计的标准估计(Y)是相关的,您可以通过乘以linregress给出的梯度(SEG)的标准误差来回溯到SEE:SEG = SEE / sqrt((X - 平均值之和) X)** 2)
Stack Exchange不处理乳胶,但如果您感兴趣,请在“分析样本数据”标题下计算数学here。
答案 3 :(得分:0)
Excel中“ y的标准误差”的计算实际上是y值的标准偏差。
x上的std err相同。最后一步中的数字“ 2”是您给出的示例的自由度。
>>> x = [5.05, 6.75, 3.21, 2.66]
>>> y = [1.65, 26.5, -5.93, 7.96]
>>> def power(a):
return a*5.3936-16.2811
>>> y_fit = list(map(power,x))
>>> y_fit
[10.956580000000002, 20.125700000000005, 1.032356, -1.934123999999997]
>>> var = [y[i]-y_fit[i] for i in range(len(y))]
>>> def pow2(a):
return a**2
>>> summa = list(map(pow2,var))
>>> summa
[86.61243129640003, 40.63170048999993, 48.47440107073599, 97.89368972737596]
>>> total = 0
>>> for i in summa:
total += i
>>> total
273.6122225845119
>>> import math
>>> math.sqrt(total/2)
11.696414463084658
答案 4 :(得分:0)
这将为您提供等效于使用python的STEYX:
fit = np.polyfit(x,y,deg=1)
n = len(x)
m = fit[0]
c = fit[1]
y_pred = m*x+c
STEYX = (((y-y_pred)**2).sum()/(n-2))**0.5
print(STEYX)