许多数据帧上的高效Python Pandas Stock Beta计算

时间:2016-09-14 23:50:05

标签: python algorithm performance pandas dataframe

我有很多(4000+)CSV的库存数据(日期,开放,高,低,关闭),我将其导入单个Pandas数据帧以执行分析。我是python的新手,想要为每个股票计算一个滚动的12个月测试版,我找到了一个计算滚动测试版(Python pandas calculate rolling stock beta using rolling apply to groupby object in vectorized fashion)的帖子,但是在我的代码中使用时需要超过2.5小时!考虑到我可以在3分钟内在SQL表中运行完全相同的计算,这太慢了。

如何提高以下代码的性能以匹配SQL?我理解Pandas / python有这种能力。我当前的方法循环遍历每一行,我知道这会降低性能,但我不知道在数据帧上执行滚动窗口beta计算的任何聚合方式。

注意:将CSV加载到单个数据帧并计算每日返回的前两个步骤只需要大约20秒。我的所有CSV数据帧都存储在名为' FilesLoaded'名称如' XAO'。

非常感谢您的帮助! 谢谢:))

import pandas as pd, numpy as np
import datetime
import ntpath
pd.set_option('precision',10)  #Set the Decimal Point precision to DISPLAY
start_time=datetime.datetime.now()

MarketIndex = 'XAO'
period = 250
MinBetaPeriod = period
# ***********************************************************************************************
# CALC RETURNS 
# ***********************************************************************************************
for File in FilesLoaded:
    FilesLoaded[File]['Return'] = FilesLoaded[File]['Close'].pct_change()
# ***********************************************************************************************
# CALC BETA
# ***********************************************************************************************
def calc_beta(df):
    np_array = df.values
    m = np_array[:,0] # market returns are column zero from numpy array
    s = np_array[:,1] # stock returns are column one from numpy array
    covariance = np.cov(s,m) # Calculate covariance between stock and market
    beta = covariance[0,1]/covariance[1,1]
    return beta

#Build Custom "Rolling_Apply" function
def rolling_apply(df, period, func, min_periods=None):
    if min_periods is None:
        min_periods = period
    result = pd.Series(np.nan, index=df.index)
    for i in range(1, len(df)+1):
        sub_df = df.iloc[max(i-period, 0):i,:]
        if len(sub_df) >= min_periods:  
            idx = sub_df.index[-1]
            result[idx] = func(sub_df)
    return result

#Create empty BETA dataframe with same index as RETURNS dataframe
df_join = pd.DataFrame(index=FilesLoaded[MarketIndex].index)    
df_join['market'] = FilesLoaded[MarketIndex]['Return']
df_join['stock'] = np.nan

for File in FilesLoaded:
    df_join['stock'].update(FilesLoaded[File]['Return'])
    df_join  = df_join.replace(np.inf, np.nan) #get rid of infinite values "inf" (SQL won't take "Inf")
    df_join  = df_join.replace(-np.inf, np.nan)#get rid of infinite values "inf" (SQL won't take "Inf")
    df_join  = df_join.fillna(0) #get rid of the NaNs in the return data
    FilesLoaded[File]['Beta'] = rolling_apply(df_join[['market','stock']], period, calc_beta, min_periods = MinBetaPeriod)

# ***********************************************************************************************
# CLEAN-UP
# ***********************************************************************************************
print('Run-time: {0}'.format(datetime.datetime.now() - start_time))

7 个答案:

答案 0 :(得分:11)

生成随机库存数据
4,000种股票的20年月度数据

dates = pd.date_range('1995-12-31', periods=480, freq='M', name='Date')
stoks = pd.Index(['s{:04d}'.format(i) for i in range(4000)])
df = pd.DataFrame(np.random.rand(480, 4000), dates, stoks)
df.iloc[:5, :5]

enter image description here

滚动功能
返回groupby对象,准备应用自定义函数
Source

def roll(df, w):
    # stack df.values w-times shifted once at each stack
    roll_array = np.dstack([df.values[i:i+w, :] for i in range(len(df.index) - w + 1)]).T
    # roll_array is now a 3-D array and can be read into
    # a pandas panel object
    panel = pd.Panel(roll_array, 
                     items=df.index[w-1:],
                     major_axis=df.columns,
                     minor_axis=pd.Index(range(w), name='roll'))
    # convert to dataframe and pivot + groupby
    # is now ready for any action normally performed
    # on a groupby object
    return panel.to_frame().unstack().T.groupby(level=0)

Beta功能
使用OLS回归的封闭形式解决方案
假设第0列是市场
Source

def beta(df):
    # first column is the market
    X = df.values[:, [0]]
    # prepend a column of ones for the intercept
    X = np.concatenate([np.ones_like(X), X], axis=1)
    # matrix algebra
    b = np.linalg.pinv(X.T.dot(X)).dot(X.T).dot(df.values[:, 1:])
    return pd.Series(b[1], df.columns[1:], name='Beta')

<强> 示范

rdf = roll(df, 12)
betas = rdf.apply(beta)

<强> 时序

enter image description here

<强> 验证
将计算与OP进行比较

def calc_beta(df):
    np_array = df.values
    m = np_array[:,0] # market returns are column zero from numpy array
    s = np_array[:,1] # stock returns are column one from numpy array
    covariance = np.cov(s,m) # Calculate covariance between stock and market
    beta = covariance[0,1]/covariance[1,1]
    return beta
print(calc_beta(df.iloc[:12, :2]))

-0.311757542437
print(beta(df.iloc[:12, :2]))

s0001   -0.311758
Name: Beta, dtype: float64

注意第一个单元格
与上面验证的计算值相同

betas = rdf.apply(beta)
betas.iloc[:5, :5]

enter image description here

对评论的回复
模拟多个数据帧的完整工作示例

num_sec_dfs = 4000

cols = ['Open', 'High', 'Low', 'Close']
dfs = {'s{:04d}'.format(i): pd.DataFrame(np.random.rand(480, 4), dates, cols) for i in range(num_sec_dfs)}

market = pd.Series(np.random.rand(480), dates, name='Market')

df = pd.concat([market] + [dfs[k].Close.rename(k) for k in dfs.keys()], axis=1).sort_index(1)

betas = roll(df.pct_change().dropna(), 12).apply(beta)

for c, col in betas.iteritems():
    dfs[c]['Beta'] = col

dfs['s0001'].head(20)

enter image description here

答案 1 :(得分:5)

使用生成器来提高内存效率

模拟数据

m, n = 480, 10000
dates = pd.date_range('1995-12-31', periods=m, freq='M', name='Date')
stocks = pd.Index(['s{:04d}'.format(i) for i in range(n)])
df = pd.DataFrame(np.random.rand(m, n), dates, stocks)
market = pd.Series(np.random.rand(m), dates, name='Market')
df = pd.concat([df, market], axis=1)

Beta计算

def beta(df, market=None):
    # If the market values are not passed,
    # I'll assume they are located in a column
    # named 'Market'.  If not, this will fail.
    if market is None:
        market = df['Market']
        df = df.drop('Market', axis=1)
    X = market.values.reshape(-1, 1)
    X = np.concatenate([np.ones_like(X), X], axis=1)
    b = np.linalg.pinv(X.T.dot(X)).dot(X.T).dot(df.values)
    return pd.Series(b[1], df.columns, name=df.index[-1])

滚动功能
这会返回一个生成器,并且内存效率会更高

def roll(df, w):
    for i in range(df.shape[0] - w + 1):
        yield pd.DataFrame(df.values[i:i+w, :], df.index[i:i+w], df.columns)

全部放在一起

betas = pd.concat([beta(sdf) for sdf in roll(df.pct_change().dropna(), 12)], axis=1).T

验证

OP beta calc

def calc_beta(df):
    np_array = df.values
    m = np_array[:,0] # market returns are column zero from numpy array
    s = np_array[:,1] # stock returns are column one from numpy array
    covariance = np.cov(s,m) # Calculate covariance between stock and market
    beta = covariance[0,1]/covariance[1,1]
    return beta

实验设置

m, n = 12, 2
dates = pd.date_range('1995-12-31', periods=m, freq='M', name='Date')

cols = ['Open', 'High', 'Low', 'Close']
dfs = {'s{:04d}'.format(i): pd.DataFrame(np.random.rand(m, 4), dates, cols) for i in range(n)}

market = pd.Series(np.random.rand(m), dates, name='Market')

df = pd.concat([market] + [dfs[k].Close.rename(k) for k in dfs.keys()], axis=1).sort_index(1)

betas = pd.concat([beta(sdf) for sdf in roll(df.pct_change().dropna(), 12)], axis=1).T

for c, col in betas.iteritems():
    dfs[c]['Beta'] = col

dfs['s0000'].head(20)

enter image description here

calc_beta(df[['Market', 's0000']])

0.0020118230147777435

<强> 注:
计算是相同的

答案 2 :(得分:0)

尽管将输入数据集有效地细分为滚动窗口对于优化总体计算很重要,但beta计算本身的性能也可以得到显着改善。

以下内容仅将数据集细分优化为滚动窗口:

def numpy_betas(x_name, window, returns_data, intercept=True):
    if intercept:
        ones = numpy.ones(window)

    def lstsq_beta(window_data):
        x_data = numpy.vstack([window_data[x_name], ones]).T if intercept else window_data[[x_name]]
        beta_arr, residuals, rank, s = numpy.linalg.lstsq(x_data, window_data)
        return beta_arr[0]

    indices = [int(x) for x in numpy.arange(0, returns_data.shape[0] - window + 1, 1)]
    return DataFrame(
        data=[lstsq_beta(returns_data.iloc[i:(i + window)]) for i in indices]
        , columns=list(returns_data.columns)
        , index=returns_data.index[window - 1::1]
    )

以下内容还优化了beta计算本身:

def custom_betas(x_name, window, returns_data):
    window_inv = 1.0 / window
    x_sum = returns_data[x_name].rolling(window, min_periods=window).sum()
    y_sum = returns_data.rolling(window, min_periods=window).sum()
    xy_sum = returns_data.mul(returns_data[x_name], axis=0).rolling(window, min_periods=window).sum()
    xx_sum = numpy.square(returns_data[x_name]).rolling(window, min_periods=window).sum()
    xy_cov = xy_sum - window_inv * y_sum.mul(x_sum, axis=0)
    x_var = xx_sum - window_inv * numpy.square(x_sum)
    betas = xy_cov.divide(x_var, axis=0)[window - 1:]
    betas.columns.name = None
    return betas

比较两种不同计算的性能,您可以看到,随着Beta计算中使用的窗口的增加,第二种方法的性能大大优于第一种: enter image description here

将性能与@piRSquared的实现进行比较,自定义方法大约需要350毫秒来进行评估,而在2秒以上。

答案 3 :(得分:0)

在@piRSquared的实现上进一步优化速度和内存。为了清楚起见,还简化了代码。

<?xml version="1.0" encoding="utf-8"?>
<android.support.design.widget.CoordinatorLayout
    xmlns:android="http://schemas.android.com/apk/res/android"
    xmlns:app="http://schemas.android.com/apk/res-auto"
    android:id="@+id/activityRoot"
    android:layout_width="match_parent"
    android:layout_height="match_parent">

    <android.support.design.widget.AppBarLayout
        android:id="@+id/appbar"
        android:layout_width="match_parent"
        android:layout_height="wrap_content"
        android:paddingTop="8dp"
        android:theme="@style/AppTheme.AppBarOverlay">

        <android.support.design.widget.TabLayout
            android:id="@+id/tabs"
            android:layout_width="match_parent"
            android:layout_height="wrap_content"
            app:tabGravity="fill"
            app:tabMaxWidth="0dp"
            app:tabMode="fixed" />

    </android.support.design.widget.AppBarLayout>

    <android.support.v4.view.ViewPager
        android:id="@+id/viewPager"
        android:layout_width="match_parent"
        android:layout_height="match_parent"
        app:layout_behavior="@string/appbar_scrolling_view_behavior" />

</android.support.design.widget.CoordinatorLayout>

%timeit betas = rolling_calc_beta(股票,市场,12)

每个循环335 ms±2.69 ms(平均±标准偏差,共运行7次,每个循环1次)

答案 4 :(得分:0)

这里是最简单,最快的解决方案

被接受的答案太慢了,无法满足我的需求,而且我不理解所声称的解决方案背后的数学原理。他们也给出了不同的答案,尽管公平地说,我可能只是搞砸了。

我认为您无需创建自定义滚动功能来计算大熊猫1.1.4(甚至从至少0.19开始)的beta。下面的代码假定数据的格式与上述问题相同-带有日期索引的熊猫数据框,股票的某些周期性回报百分比以及市场价值位于“市场”列中。

如果您没有这种格式,建议您将股票收益与市场收益结合起来,以确保使用以下相同的指数:

# Use .pct_change() only if joining Close data
beta_data = stock_data.join(market_data), how = 'inner').pct_change().dropna()

在那之后,就是协方差除以方差。


ticker_covariance = beta_data.rolling(window).cov()
# Limit results to the stock (i.e. column name for the stock) vs. 'Market' covariance
ticker_covariance = ticker_covariance.loc[pd.IndexSlice[:, stock], 'Market'].dropna()
benchmark_variance = beta_data['Market'].rolling(window).var().dropna()
beta = ticker_covariance / benchmark_variance

注意:如果您有多索引,则必须删除非日期级别才能使用rolling()。apply()解决方案。我只测试了一只股票和一个市场。如果您有多只股票,则可能需要对.loc之后的ticker_covariance方程进行修改。最后,如果您要计算整个窗口之前的时段的Beta值(例如stock_data从1年前开始,但是您使用了3年的数据),则可以使用以下方法修改以上窗口并扩展(而不是滚动)窗口相同的计算,然后.combine_first()两者。

答案 5 :(得分:0)

基于numpy和pandas创建了一个简单的python包finance-calculator来计算包括beta在内的财务比率。我正在使用简单的公式 (as per investopedia):

beta = covariance(returns, benchmark returns) / variance(benchmark returns)

协方差和方差在 Pandas 中直接计算,因此速度很快。使用包中的api也很简单:

import finance_calculator as fc
beta = fc.get_beta(scheme_data, benchmark_data, tail=False)

如果 tail 为真,它将为您提供日期和 beta 的数据框或最后一个 beta 值。

答案 6 :(得分:-1)

但是当您需要对多个股票(n)的日期(m)进行beta计算时,这些结果会很不精确。

通过在多个内核上运行每个日期或库存可以减轻一些负担,但是最终您将拥有庞大的硬件。

可用解决方案的主要时间要求是找到方差和协方差,并且应避免在(指数和股票)数据中使用 NaN 来正确计算pandas == 0.23。 0。

因此,除非将计算结果缓存起来,否则再次运行将导致愚蠢的举动。

如果 NaN 没有删除,

numpy方差和协方差版本也会碰巧计算beta。

对于大量数据,必须有Cython实现。