熊猫滚动回归:循环的替代方案

时间:2017-06-06 01:31:19

标签: python pandas numpy linear-regression statsmodels

在弃用的MovingOLS模块中,我很好地利用了pandas'stats/ols类(来源here)。不幸的是,它完全被大熊猫0.20摧毁了。

我已多次询问如何以有效的方式运行滚动OLS回归的问题(例如here),但在我看来,语言有点宽泛而且没有很好的答案。

以下是我的问题:

  1. 我怎样才能最好地模仿大熊猫MovingOLS的基本框架?这一类最吸引人的特点是能够将多个方法/属性视为单独的时间序列 - 即。系数,r平方,t统计等,无需重新运行回归。例如,您可以创建类似model = pd.MovingOLS(y, x)的内容,然后调用.t_stat.rmse.std_err等。在下面的示例中,相反,我没有看到被迫分别计算每个统计信息的方法。有没有一种方法不涉及创建滑动/滚动“块”(步幅)和运行回归/使用线性代数来获取每个模型参数?

  2. 更广泛地说,大熊猫正在发生什么让rolling.apply无法承担更复杂的功能?*当你用外行的术语创建一个.rolling对象时,会发生什么在内部 - 它是否与在每个窗口上循环并创建一个更高维度的数组有根本的不同,我在下面做什么?

  3. *即func传递给.apply

      

    必须从ndarray输入* args和** kwargs生成单个值   被传递给函数

    以下是我目前处理的一些样本数据,回归贸易加权美元对利差和铜价的百分比变化。 (这没有多大意义;只是随机选择这些。)我已经从基于类的实现中取出它并尝试将其删除为更简单的脚本。

    from datetime import date
    from pandas_datareader.data import DataReader
    import statsmodels.formula.api as smf
    
    syms = {'TWEXBMTH' : 'usd', 
            'T10Y2YM' : 'term_spread', 
            'PCOPPUSDM' : 'copper'
           }
    
    start = date(2000, 1, 1)
    data = (DataReader(syms.keys(), 'fred', start)
            .pct_change()
            .dropna())
    data = data.rename(columns = syms)
    data = data.assign(intercept = 1.) # required by statsmodels OLS
    
    def sliding_windows(x, window):
        """Create rolling/sliding windows of length ~window~.
    
        Given an array of shape (y, z), it will return "blocks" of shape
        (x - window + 1, window, z)."""
    
        return np.array([x[i:i + window] for i 
                        in range(0, x.shape[0] - window + 1)])
    
    data.head(3)
    Out[33]: 
                     usd  term_spread    copper  intercept
    DATE                                                  
    2000-02-01  0.012573    -1.409091 -0.019972        1.0
    2000-03-01 -0.000079     2.000000 -0.037202        1.0
    2000-04-01  0.005642     0.518519 -0.033275        1.0
    
    window = 36
    wins = sliding_windows(data.values, window=window)
    y, x = wins[:, :, 0], wins[:, :, 1:]
    
    coefs = []
    
    for endog, exog in zip(y, x):
        model = smf.OLS(endog, exog).fit()
            # The full set of model attributes gets lost with each loop
        coefs.append(model.params)
    
    df = pd.DataFrame(coefs, columns=data.iloc[:, 1:].columns,
                      index=data.index[window - 1:])
    
    df.head(3) # rolling 36m coefficients
    Out[70]: 
                term_spread    copper  intercept
    DATE                                        
    2003-01-01    -0.000122 -0.018426   0.001937
    2003-02-01     0.000391 -0.015740   0.001597
    2003-03-01     0.000655 -0.016811   0.001546
    

2 个答案:

答案 0 :(得分:13)

我创建了一个ols模块,旨在模仿大熊猫'已弃用的MovingOLS;它是here

它有三个核心类:

  • OLS:静态(单窗口)普通最小二乘回归。输出是NumPy数组
  • RollingOLS:滚动(多窗口)普通最小二乘回归。输出是更高维度的NumPy数组。
  • PandasRollingOLS:将RollingOLS的结果包含在pandas系列& DataFrames。旨在模仿已弃用的pandas模块的外观。

请注意,该模块是package的一部分(我目前正在上传到PyPi),它需要一个包间导入。

上面的前两个类完全在NumPy中实现,主要使用矩阵代数。 RollingOLS也广泛利用广播。属性很大程度上模仿了statsmodels的OLS RegressionResultsWrapper

一个例子:

import urllib.parse
import pandas as pd
from pyfinance.ols import PandasRollingOLS

# You can also do this with pandas-datareader; here's the hard way
url = "https://fred.stlouisfed.org/graph/fredgraph.csv"

syms = {
    "TWEXBMTH" : "usd", 
    "T10Y2YM" : "term_spread", 
    "GOLDAMGBD228NLBM" : "gold",
}

params = {
    "fq": "Monthly,Monthly,Monthly",
    "id": ",".join(syms.keys()),
    "cosd": "2000-01-01",
    "coed": "2019-02-01",
}

data = pd.read_csv(
    url + "?" + urllib.parse.urlencode(params, safe=","),
    na_values={"."},
    parse_dates=["DATE"],
    index_col=0
).pct_change().dropna().rename(columns=syms)
print(data.head())
#                  usd  term_spread      gold
# DATE                                       
# 2000-02-01  0.012580    -1.409091  0.057152
# 2000-03-01 -0.000113     2.000000 -0.047034
# 2000-04-01  0.005634     0.518519 -0.023520
# 2000-05-01  0.022017    -0.097561 -0.016675
# 2000-06-01 -0.010116     0.027027  0.036599

y = data.usd
x = data.drop('usd', axis=1)

window = 12  # months
model = PandasRollingOLS(y=y, x=x, window=window)

print(model.beta.head())  # Coefficients excluding the intercept
#             term_spread      gold
# DATE                             
# 2001-01-01     0.000033 -0.054261
# 2001-02-01     0.000277 -0.188556
# 2001-03-01     0.002432 -0.294865
# 2001-04-01     0.002796 -0.334880
# 2001-05-01     0.002448 -0.241902

print(model.fstat.head())
# DATE
# 2001-01-01    0.136991
# 2001-02-01    1.233794
# 2001-03-01    3.053000
# 2001-04-01    3.997486
# 2001-05-01    3.855118
# Name: fstat, dtype: float64

print(model.rsq.head())  # R-squared
# DATE
# 2001-01-01    0.029543
# 2001-02-01    0.215179
# 2001-03-01    0.404210
# 2001-04-01    0.470432
# 2001-05-01    0.461408
# Name: rsq, dtype: float64

答案 1 :(得分:3)

使用自定义滚动应用功能。

import numpy as np

df['slope'] = df.values.rolling(window=125).apply(lambda x: np.polyfit(np.array(range(0,125)), x, 1)[0], raw=True)