将数据分组为相等的框大小并将OLS应用于每个框

时间:2016-12-20 14:07:29

标签: python pandas curve-fitting statsmodels binning

我有一个DataFrame df1

import pandas as pd
import numpy as np
import statsmodels.formula.api as sm

df1 = pd.DataFrame( np.random.randn(3000,1), index= pd.date_range('1/1/1990', periods=3000), columns = {"M"})

我想将框大小= 10的元素分组,使用OLS拟合它们并计算Y_t,其中Y_t代表一系列直线拟合。

换句话说,我想取前10个值,使用OLS(Y_t = b * X_t + a_0)拟合它们,并获得这10个值的值Y_t。再次为接下来的10个值(不是滚动窗口!)做同样的事情,依此类推。

我的方法

我遇到的第一个问题是我无法使用DateTime值作为预测变量来匹配元素,因此我定义了一个新的DataFrame df_fit,它包含两列A和{{1 }}。列B包含0到9之间的整数,列A包含10个元素组中B的值:

df1

其中 def compute_yt(df,i,bs): df_fit = pd.DataFrame({"B": np.arange(1,bs+1),\ "A": df.reset_index().loc[i*bs:((i+1)*bs-1), "M"]}) fit = sm.ols(formula = "A ~ B", data = df_fit).fit() yt = fit.params.B*df_fit["B"] + fit.params.Intercept return yt 是框大小(本例中为10),bs是一个允许扫描所有值的索引。

最后,

i

其中 result = [compute_yt(df1,n,l) for n in np.arange(0,round(len(df1)/l)-1)] result = Name: B, dtype: float64, 840 -0.249590 841 -0.249935 842 -0.250280 843 -0.250625 844 -0.250970 845 -0.251315 846 -0.251660 847 -0.252005 848 -0.252350 849 -0.252695 Name: B, dtype: float64, 850 -0.252631 851 -0.252408 ... ... 是一个列表,应该包含直线拟合的值。

所以,我的问题如下:

  1. 有没有办法使用DateTime值作为预测变量来运行OLS?

  2. 我想使用list comprehension来构建一个包含result值的DataFrame(形状与df1相同)。这涉及问题(1),因为我想获得这些值的时间序列。

  3. 还有更多" pythonic"写这段代码的方法?我对数据帧进行切片的方式似乎不太合适。

1 个答案:

答案 0 :(得分:1)

不确定这是否是您想要做的,但我首先在数据帧的每一行添加了一个组号和一个观察号,然后将其旋转,以便每行有10个观察值。

sub-dim

输出

df1 = pd.DataFrame( data={'M':np.random.randn(3000)}, index= pd.date_range('1/1/1990', periods=3000))

df1['group_num'] = np.repeat(range(300), 10)
df1['obs_num'] = np.tile(range(10), 300)

df_pivot = df1.pivot(index='group_num', columns='obs_num')
print(df_pivot.head())

然后我编写了一个函数,用statsmodels做普通最小二乘 - 而不是公式类型。

                  M                                                    \
obs_num           0         1         2         3         4         5   
group_num                                                               
0         -0.063775 -1.293410  0.395011 -1.224491  1.777335 -2.395643   
1         -1.111679  1.668670  1.864227 -1.555251  0.959276  0.615344   
2         -0.213891 -0.733493  0.175590  0.561410  1.359565 -1.341193   
3          0.534735 -2.154626 -1.226191 -0.309502  1.368085  0.769155   
4         -0.611289 -0.545276 -1.924381  0.383596  0.322731  0.989450   


obs_num           6         7         8         9  
group_num                                          
0         -1.461194 -0.481617 -1.101098  1.102030  
1         -0.120995 -1.046757  1.286074 -0.832990  
2          0.322485 -0.825315 -2.277746 -0.619008  
3          0.794694  0.912190 -1.006603  0.572619  
4         -1.191902  1.229913  1.105221  0.899331 

然后,我通过import statsmodels.api as sm def compute_yt(row): X = sm.add_constant(np.arange(10)) fit = sm.OLS(row.values, X).fit() yt = fit.params[1] * row.values + fit.params[0] return yt 在所有行上调用此函数。

apply

输出每个原始10个值的预测值。

df_pivot.apply(compute_yt, axis=1)