我需要分组并获得python中的排名

时间:2018-11-21 10:38:45

标签: python pandas-groupby

我有一个数据框,请参考以下代码生成它:

     df = pd.DataFrame({'customer': [1,2,1,3,1,2,3], 
               "group_code": ['111', '111', '222', '111', '111', '111', '333'],
              "ind_code": ['A', 'B', 'AA', 'A', 'AAA', 'C', 'BBB'],
              "amount": [100, 200, 140, 400, 225, 125, 600],
              "card": ['XXX', 'YYY', 'YYY', 'XXX', 'XXX', 'YYY', 'XXX']})

假设我想按卡对它进行分组,并想为每张卡知道哪个组码数量最多?并使用该卡号和最高组号创建一个新的数据框。

请尽早提供帮助。

1 个答案:

答案 0 :(得分:2)

您可以这样做:

import pandas as pd

df = pd.DataFrame({'customer': [1,2,1,3,1,2,3],
               "group_code": ['111', '111', '222', '111', '111', '111', '333'],
              "ind_code": ['A', 'B', 'AA', 'A', 'AAA', 'C', 'BBB'],
              "amount": [100, 200, 140, 400, 225, 125, 600],
              "card": ['XXX', 'YYY', 'YYY', 'XXX', 'XXX', 'YYY', 'XXX']})
mask = df.groupby('card')['amount'].transform(max) == df['amount']

result = df[mask][['card', 'group_code', 'amount']]

print(result)

输出

  card group_code  amount
1  YYY        111     200
6  XXX        333     600

更新

import pandas as pd

df = pd.DataFrame({'customer': [1,2,1,3,1,2,3],
               "group_code": ['111', '111', '222', '111', '111', '111', '333'],
              "ind_code": ['A', 'B', 'AA', 'A', 'AAA', 'C', 'BBB'],
              "amount": [100, 200, 140, 400, 225, 125, 600],
              "card": ['XXX', 'YYY', 'YYY', 'XXX', 'XXX', 'YYY', 'XXX']})
agg = df.groupby(['card', 'group_code']).agg({'amount':'sum'}).reset_index()
mask = agg.groupby('card')['amount'].transform(max) == agg['amount']
result = agg[mask]
print(result)

输出

  card group_code  amount
0  XXX        111     725
2  YYY        111     325