分组依据的尾随或移动均线

时间:2018-08-14 21:57:38

标签: python pandas group-by moving-average

我想在进行分组时计算尾随或移动均线。在下面的示例中,我说明了5天移动平均线。

我的数据如下:

ID  Date         KG      Volume
1   8/10/2018    1,000   10 
1   8/11/2018    500     6 
1   8/12/2018    750     2 
1   8/13/2018    500     6 
1   8/13/2018    500     6 
1   8/14/2018    1,000   4 
2   8/1/2018     1304    8
2   8/2/2018     626     1
2   8/3/2018     955     3
2   8/8/2018     445     4
2   8/10/2018    1356    11
2   8/13/2018    524     7
2   8/14/2018    331     5

我想按ID和Date列进行分组,然后计算KG / Volume列的连续5天平均值(从今天的日期开始,这将是8 / 10-8 / 14)。我需要对ID和日期进行分组的原因是ID 1之类的情况,其中日期8/13/18出现了两次。在此示例中,我希望ID为1的8/13/18具有一个1,000 KG的条目用于平均计算(而不是两个条目500)。

预期输出如下:

ID  Avg_KG  Avg_Vol
1   850     7 
2   442.2   4.6

还请注意,平均计算所需的5天中有2天缺少ID 2。对于ID 2,缺少的两天应作为平均计算的0。这就是为什么KG平均ID为442.2而不是737的原因。

我曾尝试使用.rolling(5).mean(),但将其与groupby语句结合使用时却得到了不正确的结果。

1 个答案:

答案 0 :(得分:1)

首先,进行一些设置:

df.Date = pd.to_datetime(df.Date)
df.KG = df.KG.str.replace(',', '').astype(int)

现在按DateID分组,并计算重复的天数:

s = df.groupby(['Date', 'ID']).agg({'KG': 'sum', 'Volume': 'sum'}).reset_index(1)

            ID    KG  Volume
Date
2018-08-01   2  1304       8
2018-08-02   2   626       1
2018-08-03   2   955       3
2018-08-08   2   445       4
2018-08-10   1  1000      10
2018-08-10   2  1356      11
2018-08-11   1   500       6
2018-08-12   1   750       2
2018-08-13   1  1000      12
2018-08-13   2   524       7
2018-08-14   1  1000       4
2018-08-14   2   331       5

接下来,要对“丢失”的天数进行重新采样:

out = s.groupby('ID').resample('1D').asfreq().drop('ID', 1).reset_index(0).fillna(0)

最后,为过去5天的数据框架建立索引,并使用mean

out.groupby('ID').tail(5).groupby('ID').mean()

        KG  Volume
ID
1.0  850.0     6.8
2.0  442.2     4.6