我有以下格式的pandas数据框:
id,criteria_1,criteria_2,criteria_3,criteria_4,criteria_5,criteria_6
1,0,0,95,179,1,1
1,0,0,97,185,NaN,1
1,1,2,92,120,1,1
2,0,0,27,0,1,NaN
2,1,2,90,179,1,1
2,2,5,111,200,1,1
3,1,2,91,175,1,1
3,0,8,90,27,NaN,NaN
3,0,0,22,0,NaN,NaN
我有以下工作代码:
df_final = df[((df['criteria_1'] >=1.0) | (df['criteria_2'] >=2.0)) &
(df['criteria_3'] >=90.0) &
(df['criteria_4'] <=180.0) &
((df['criteria_5'].notnull()) & (df['criteria_6'].notnull()))].groupby('id').first()
结果如下:
id,criteria_1,criteria_2,criteria_3,criteria_4,criteria_5,criteria_6
1,1,2,92,120,1,1
2,1,2,90,179,1,1
3,1,2,91,175,1,1
但是,我想创建一个新的布尔指示符标记列,以使用.transform()
指示哪些行符合原始数据框的条件(上面的groupby的结果)。
最初,我认为我可以使用.first().transform('any').astype(int)
的组合,但我认为这不会起作用。如果有更清洁的方法来做到这一点也会很好。
答案 0 :(得分:1)
这是一种方式:
mask = (((df['criteria_1'] >=1.0) | (df['criteria_2'] >=2.0)) &
(df['criteria_3'] >=90.0) &
(df['criteria_4'] <=180.0) &
((df['criteria_5'].notnull()) & (df['criteria_6'].notnull())))
# reset_index() defaults to drop=False. It inserts the old index into the DF
# as a new column named 'index'.
idx = df.reset_index()[mask].groupby('id').first().reset_index(drop=True)['index']
df['flag'] = df.index.isin(idx).astype(int)