我正在尝试使用Pandas(0.23.3)计算Series对象的滚动自相关
设置示例:
dt_index = pd.date_range('2018-01-01','2018-02-01', freq = 'B')
data = np.random.rand(len(dt_index))
s = pd.Series(data, index = dt_index)
创建窗口大小为5的滚动对象:
r = s.rolling(5)
获取:
Rolling [window=5,center=False,axis=0]
现在,当我尝试计算相关性时(很确定这是错误的方法):
r.corr(other=r)
我只得到NaNs
我尝试了基于documentation:的另一种方法:
df = pd.DataFrame()
df['a'] = s
df['b'] = s.shift(-1)
df.rolling(window=5).corr()
得到类似的东西
...
2018-03-01 a NaN NaN
b NaN NaN
真的不确定我要怎么做。任何帮助将不胜感激!该文档也使用float64。认为这是因为相关性非常接近零,所以显示NaN吗?有人提出了一个错误报告here,但是jreback在我认为的先前的错误修复程序中解决了该问题。
这是另一个相关的答案,但是它使用的是pd.rolling_apply,似乎在熊猫0.23.3版本中不支持吗?
答案 0 :(得分:4)
IIUC,
>>> s.rolling(5).apply(lambda x: x.autocorr(), raw=False)
2018-01-01 NaN
2018-01-02 NaN
2018-01-03 NaN
2018-01-04 NaN
2018-01-05 -0.502455
2018-01-08 -0.072132
2018-01-09 -0.216756
2018-01-10 -0.090358
2018-01-11 -0.928272
2018-01-12 -0.754725
2018-01-15 -0.822256
2018-01-16 -0.941788
2018-01-17 -0.765803
2018-01-18 -0.680472
2018-01-19 -0.902443
2018-01-22 -0.796185
2018-01-23 -0.691141
2018-01-24 -0.427208
2018-01-25 0.176668
2018-01-26 0.016166
2018-01-29 -0.876047
2018-01-30 -0.905765
2018-01-31 -0.859755
2018-02-01 -0.795077
答案 1 :(得分:1)
这比 Pandas 的 autocorr
快很多,但结果不同。在我的数据集中,这两种方法的结果之间有 0.87 的 Pearson 相关性。有一个关于为什么结果不同的讨论here。
from statsmodels.tsa.stattools import acf
s.rolling(5).apply(lambda x: acf(x, unbiased=True, fft=False)[1], raw=True)
注意输入不能有空值,否则返回所有空值。