我有一个Long格式的数据帧,在两列中有重复的值,在另一列中有数据。我想为每个组查找SMA。我的问题是:rolling()
只是忽略了数据按两列分组的事实。
这里有一些虚拟数据和代码。
import numpy as np
import pandas as pd
dtix=pd.Series(pd.date_range(start='1/1/2019', periods=4) )
df=pd.DataFrame({'ix1':np.repeat([0,1],4), 'ix2':pd.concat([dtix,dtix]), 'data':np.arange(0,8) })
df
ix1 ix2 data 0 0 2019-01-01 0 1 0 2019-01-02 1 2 0 2019-01-03 2 3 0 2019-01-04 3 0 1 2019-01-01 4 1 1 2019-01-02 5 2 1 2019-01-03 6 3 1 2019-01-04 7
现在,当我对这些数据执行分组滚动均值时,我得到的输出如下:
df.groupby(['ix1','ix2']).agg({'data':'mean'}).rolling(2).mean()
data ix1 ix2 0 2019-01-01 NaN 2019-01-02 0.5 2019-01-03 1.5 2019-01-04 2.5 1 2019-01-01 3.5 2019-01-02 4.5 2019-01-03 5.5 2019-01-04 6.5
所需的输出: 而我实际上希望拥有的是:
sma ix1 ix2 0 2019-01-01 NaN 2019-01-02 0.5 2019-01-03 1.5 2019-01-04 2.5 1 2019-01-01 NaN 2019-01-02 4.5 2019-01-03 5.5 2019-01-04 6.5
将感谢您的帮助。
答案 0 :(得分:0)
按{groupby
)的最高级别(ix1
)使用另一个rolling
:
df1 = (df.groupby(['ix1','ix2'])
.agg({'data':'mean'})
.groupby(level=0, group_keys=False)
.rolling(2)
.mean())
print (df1)
data
ix1 ix2
0 2019-01-01 NaN
2019-01-02 0.5
2019-01-03 1.5
2019-01-04 2.5
1 2019-01-01 NaN
2019-01-02 4.5
2019-01-03 5.5
2019-01-04 6.5
在您的解决方案中,聚合返回的是一列DataFrame
,因此链接的rolling
用于所有行,而不是按需要按组进行分组:
print(df.groupby(['ix1','ix2']).agg({'data':'mean'}))
data
ix1 ix2
0 2019-01-01 0
2019-01-02 1
2019-01-03 2
2019-01-04 3
1 2019-01-01 4
2019-01-02 5
2019-01-03 6
2019-01-04 7