计算具有唯一ID的数据框上的累积乘积

时间:2019-03-16 05:08:11

标签: python dataframe uniqueidentifier

我想计算时间序列数据中每个日期和每个唯一ID的累积乘积。我的理解是groupbycumprod将需要一起使用。但是,我不确定确切的语法。

这是一些示例数据,需要输出

data = {'date': ['2014-05-01','2014-05-01','2014-05-01','2014-05-01',
     '2014-05-02','2014-05-02','2014-05-02','2014-05-02','2014-05-03',
     '2014-05-03','2014-05-03', '2014-05-03'],'id':[1, 2, 3, 4, 1,
     2, 3, 4, 1, 2, 3, 4],'obs': [1, 2, 3, 4, 4, 3, 2, 1, 1, 2, 3, 4]}

df = pd.DataFrame(data, columns = ['date', 'id','obs'])
df.index =df.date
del df['date']

df

            id   obs  
date               
2014-05-01   1    1    
2014-05-01   2    2    
2014-05-01   3    3    
2014-05-01   4    4    
2014-05-02   1    4    
2014-05-02   2    3    
2014-05-02   3    2    
2014-05-02   4    1    
2014-05-03   1    1    
2014-05-03   2    2    
2014-05-03   3    3    
2014-05-03   4    4    

根据obs列中的值创建了名为cumproduct的新列

df

            id   obs  cumproduct
date               
2014-05-01   1    1    1
2014-05-01   2    2    2
2014-05-01   3    3    3
2014-05-01   4    4    4
2014-05-02   1    4    5
2014-05-02   2    3    5
2014-05-02   3    2    5
2014-05-02   4    1    5
2014-05-03   1    1    6
2014-05-03   2    2    7
2014-05-03   3    3    8
2014-05-03   4    4    9

任何帮助都会很棒:)

1 个答案:

答案 0 :(得分:1)

import pandas as pd

data = {'date': ['2014-05-01', '2014-05-01', '2014-05-01', '2014-05-01',
                 '2014-05-02', '2014-05-02', '2014-05-02', '2014-05-03',
                 '2014-05-03', '2014-05-03'],
        'id': [1, 2, 3, 4, 1, 2, 3, 4, 1, 2],
        'obs': [1, 2, 3, 4, 5, 5, 5, 5, 6, 7]}

df = pd.DataFrame(data).set_index(['date', 'id']).sort_index(level='date')
df_cumprod = df.groupby('id').cumprod()
print(df_cumprod)

则输出为:

               obs
date       id     
2014-05-01 1     1
           2     2
           3     3
           4     4
2014-05-02 1     5
           2    10
           3    15
2014-05-03 4    20
           1    30
           2    70

请注意,您提供的代码和数据在多个方面都有缺陷,并且无法运行。