我想在进行分组时计算尾随或移动均线。在下面的示例中,我说明了5天移动平均线。
我的数据如下:
ID Date KG Volume
1 8/10/2018 1,000 10
1 8/11/2018 500 6
1 8/12/2018 750 2
1 8/13/2018 500 6
1 8/13/2018 500 6
1 8/14/2018 1,000 4
2 8/1/2018 1304 8
2 8/2/2018 626 1
2 8/3/2018 955 3
2 8/8/2018 445 4
2 8/10/2018 1356 11
2 8/13/2018 524 7
2 8/14/2018 331 5
我想按ID和Date列进行分组,然后计算KG / Volume列的连续5天平均值(从今天的日期开始,这将是8 / 10-8 / 14)。我需要对ID和日期进行分组的原因是ID 1之类的情况,其中日期8/13/18出现了两次。在此示例中,我希望ID为1的8/13/18具有一个1,000 KG的条目用于平均计算(而不是两个条目500)。
预期输出如下:
ID Avg_KG Avg_Vol
1 850 7
2 442.2 4.6
还请注意,平均计算所需的5天中有2天缺少ID 2。对于ID 2,缺少的两天应作为平均计算的0。这就是为什么KG平均ID为442.2而不是737的原因。
我曾尝试使用.rolling(5).mean(),但将其与groupby语句结合使用时却得到了不正确的结果。
答案 0 :(得分:1)
首先,进行一些设置:
df.Date = pd.to_datetime(df.Date)
df.KG = df.KG.str.replace(',', '').astype(int)
现在按Date
和ID
分组,并计算重复的天数:
s = df.groupby(['Date', 'ID']).agg({'KG': 'sum', 'Volume': 'sum'}).reset_index(1)
ID KG Volume
Date
2018-08-01 2 1304 8
2018-08-02 2 626 1
2018-08-03 2 955 3
2018-08-08 2 445 4
2018-08-10 1 1000 10
2018-08-10 2 1356 11
2018-08-11 1 500 6
2018-08-12 1 750 2
2018-08-13 1 1000 12
2018-08-13 2 524 7
2018-08-14 1 1000 4
2018-08-14 2 331 5
接下来,要对“丢失”的天数进行重新采样:
out = s.groupby('ID').resample('1D').asfreq().drop('ID', 1).reset_index(0).fillna(0)
最后,为过去5天的数据框架建立索引,并使用mean
:
out.groupby('ID').tail(5).groupby('ID').mean()
KG Volume
ID
1.0 850.0 6.8
2.0 442.2 4.6