我希望将统计分析项目迁移到大熊猫。我想在N天的滚动窗口中排列3列。我已经找到了这个方法来解决这个问题[rank-data-over-a-rolling-window] [1],但性能不足以满足我的数据集(45K行)。我找到的最快的方法是使用瓶颈库或numpy argsort,如下所示。这显着提高了性能,但与具有相似性能的rolling_mean函数相比,还有一段距离。
编辑:我已更新以下代码,以提供可重现的时间示例。系列排名功能是最灵活的,允许我选择如何排名关系,但是非常慢。我能找到的最好的两个是瓶颈方法或argsort。两者在性能上都具有可比性,但在处理领带方面受到限制。然而,与滚动平均值相比,两者仍然相当慢?
rollWindow = 240
df = pd.DataFrame(np.random.randn(100000,4), columns=list('ABCD'), index=pd.date_range('1/1/2000', periods=100000, freq='1H'))
df.iloc[-3:-1]['A'] = 7.5
df.iloc[-1]['A'] = 5.5
df["SER_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankOnSeries)
# 28.9secs (allows competition/min ranking for ties)
df["SCIPY_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankSciPy)
# 70.89secs (allows competition/min ranking for ties)
df["BNECK_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankBottleneck)
# 3.64secs (only provides average ranking for ties)
df["ASRT_RK"] = pd.rolling_apply(df["A"], rollWindow, rollingRankArgSort)
# 3.56secs (only provides competition/min ranking for ties)
df["MEAN"] = pd.rolling_mean(df['A'], window=rollWindow)
# 0.008secs
def rollingRankOnSeries (array):
s = pd.Series(array)
return s.rank(method='min', ascending=False)[len(s)-1]
def rollingRankSciPy (array):
return array.size + 1 - sc.rankdata(array)[-1]
def rollingRankBottleneck (array):
return array.size + 1 - bd.rankdata(array)[-1]
def rollingRankArgSort (array):
return array.size - array.argsort().argsort()[-1]
A SER_RK SCIPY_RK BNECK_RK ASRT_RK MEAN
2011-05-29 11:00:00 1.37 23 23.0 23.0 23 0.013526
2011-05-29 12:00:00 0.45 85 85.0 85.0 85 0.016833
2011-05-29 13:00:00 7.50 1 1.0 1.0 1 0.049606
2011-05-29 14:00:00 7.50 1 1.5 1.5 1 0.083655
2011-05-29 15:00:00 5.50 3 3.0 3.0 3 0.112001
我之前通过维护每个窗口(在线)之间的差异来实现移动窗口统计,以便轻松计算排名的变化,因为它看起来我现在必须完全重新排列每个窗口,这是不必要的。我之前已经看到过类似的问题[熊猫在滚动统计数据上的表现] [2]。
由于
[1]: http://stackoverflow.com/questions/14440187/rank-data-over-a-rolling-window-in-pandas-dataframe
[2]: http://stackoverflow.com/questions/24613850/pandas-performance-on-multiple-rolling-statistics-on-different-time-intervals
答案 0 :(得分:-1)
文档here执行您所描述的内容。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000',
periods=1000))
plot1 = pd.rolling_max(ts, 240)
plot2 = pd.rolling_min(ts, 240)
plot3 = pd.rolling_mean(ts, 240)
plt.plot(plot1.values.tolist())
plt.plot(plot2.values.tolist())
plt.plot(plot3.values.tolist())
plt.show()
这就是Pandas如何优化以执行任务。如果这还不够快,我不确定解决方法会比内置函数更快。如果这是多余的,请随意downvote:)
编辑: 这更像是你在谈论什么?
ts = pd.Series(np.random.randn(1000000), index=pd.date_range('1/1/2000', periods=1000000))
listofmax = []
for number in range(0, len(ts), 240):
listofmax.append(ts[number:number+240].max())
根据timeit,花了100万行花了.4秒。当然这只是一个日期时间戳和一个值。你在寻找比这更快的东西吗?我能更好地理解你的尝试吗?