熊猫:在大型数据帧上滚动排名的表现

时间:2015-02-10 11:34:05

标签: python performance pandas

我希望将统计分析项目迁移到大熊猫。我想在N天的滚动窗口中排列3列。我已经找到了这个方法来解决这个问题[rank-data-over-a-rolling-window] [1],但性能不足以满足我的数据集(45K行)。我找到的最快的方法是使用瓶颈库或numpy argsort,如下所示。这显着提高了性能,但与具有相似性能的rolling_mean函数相比,还有一段距离。

编辑:我已更新以下代码,以提供可重现的时间示例。系列排名功能是最灵活的,允许我选择如何排名关系,但是非常慢。我能找到的最好的两个是瓶颈方法或argsort。两者在性能上都具有可比性,但在处理领带方面受到限制。然而,与滚动平均值相比,两者仍然相当慢?

rollWindow = 240
df = pd.DataFrame(np.random.randn(100000,4), columns=list('ABCD'), index=pd.date_range('1/1/2000', periods=100000, freq='1H'))
df.iloc[-3:-1]['A'] = 7.5
df.iloc[-1]['A'] = 5.5

df["SER_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankOnSeries)
 # 28.9secs (allows competition/min ranking for ties)

df["SCIPY_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankSciPy)
 # 70.89secs (allows competition/min ranking for ties)

df["BNECK_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankBottleneck)
 # 3.64secs (only provides average ranking for ties)

df["ASRT_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankArgSort)
 # 3.56secs (only provides competition/min ranking for ties)

df["MEAN"] = pd.rolling_mean(df['A'], window=rollWindow)
 # 0.008secs

def rollingRankOnSeries (array):
    s = pd.Series(array)
    return s.rank(method='min', ascending=False)[len(s)-1]

def rollingRankSciPy (array):
     return array.size + 1 - sc.rankdata(array)[-1]

def rollingRankBottleneck (array):
    return array.size + 1 - bd.rankdata(array)[-1]

def rollingRankArgSort (array):
    return array.size - array.argsort().argsort()[-1]


                        A   SER_RK  SCIPY_RK  BNECK_RK  ASRT_RK     MEAN  
2011-05-29 11:00:00  1.37       23      23.0      23.0     23   0.013526  
2011-05-29 12:00:00  0.45       85      85.0      85.0     85   0.016833   
2011-05-29 13:00:00  7.50        1       1.0       1.0      1   0.049606   
2011-05-29 14:00:00  7.50        1       1.5       1.5      1   0.083655   
2011-05-29 15:00:00  5.50        3       3.0       3.0      3   0.112001 

我之前通过维护每个窗口(在线)之间的差异来实现移动窗口统计,以便轻松计算排名的变化,因为它看起来我现在必须完全重新排列每个窗口,这是不必要的。我之前已经看到过类似的问题[熊猫在滚动统计数据上的表现] [2]。

  1. 你知道大熊猫是否有办法更有效地进行这项计算?
  2. 有没有一种简单的方法在pandas的移动窗口上实现一个函数,我可以找到为每一步添加和删除的元素,并相应地返回一个值,可能维持我自己的运行等级计算?
  3. 由于

    [1]: http://stackoverflow.com/questions/14440187/rank-data-over-a-rolling-window-in-pandas-dataframe
    [2]: http://stackoverflow.com/questions/24613850/pandas-performance-on-multiple-rolling-statistics-on-different-time-intervals
    

1 个答案:

答案 0 :(得分:-1)

文档here执行您所描述的内容。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000',
    periods=1000))
plot1 = pd.rolling_max(ts, 240)
plot2 = pd.rolling_min(ts, 240)
plot3 = pd.rolling_mean(ts, 240)

plt.plot(plot1.values.tolist())
plt.plot(plot2.values.tolist())
plt.plot(plot3.values.tolist())
plt.show()

这就是Pandas如何优化以执行任务。如果这还不够快,我不确定解决方法会比内置函数更快。如果这是多余的,请随意downvote:)

编辑: 这更像是你在谈论什么?

ts = pd.Series(np.random.randn(1000000), index=pd.date_range('1/1/2000', periods=1000000))

listofmax = []
for number in range(0, len(ts), 240):
    listofmax.append(ts[number:number+240].max())
根据timeit,花了100万行花了.4秒。当然这只是一个日期时间戳和一个值。你在寻找比这更快的东西吗?我能更好地理解你的尝试吗?