我有以下数据框:
df = pd.DataFrame({'ID': ['1','1','1','1','2','2','2'], \
'episode': ['111', '112','113', '114','115','116','117'], \
'risk': ['L', 'L','H', 'L','H','L','L'], \
'date': ['21-01-2015', '27-02-2015','19-03-2015', '09-05-2015','3-01-2015','7-02-2015','11-05-2015']})
每个ID中可以有几行(不同的情节编号),每行的风险标识为L或H。我想检查每个ID是否存在风险H。一旦存在风险H在ID的任何情节中,我都希望将其余行中的风险更改为H,以便同一ID的任何先前情节都应具有H风险。数据已经按ID,情节和日期进行了排序。最终输出将是:
ID date episode risk
0 1 2015-01-21 111 L
1 1 2015-02-27 112 L
2 1 2015-03-19 113 H
3 1 2015-05-09 114 H
4 2 2015-01-03 115 H
5 2 2015-02-07 116 H
6 2 2015-05-11 117 H
我该如何实现?
答案 0 :(得分:1)
使用groupby
+ cumprod
df['risk'].ne('H').groupby(df['ID']).cumprod().map({True:'L',False:'H'})
Out[265]:
0 L
1 L
2 H
3 H
4 H
5 H
6 H
Name: risk, dtype: object
#df['risk']= df['risk'].ne('H').groupby(df['ID']).cumprod().map({True:'L',False:'H'})