我正在尝试根据初始日期和保单号删除重复的值,将第一项保留在某个日期。 例如,如果我有两条记录,例如:
policy_number initial_date
123456 01/02/97
123456 01/02/99
我想要的输出应如下所示。
policy_number initial_date
123456 01/02/97
直到'我已经尝试过:
df.drop_duplicates(['POLICY_NUMBER','initial_date'], keep="first", inplace=True)
df.sort_values('initial_date').drop_duplicates('initial_date',keep='first')
但仍然不值得,输出看起来与原始的相同或仅基于忽略保单编号的日期丢弃
两个变量都是对象dtype
答案 0 :(得分:1)
使用:
df.sort_values('initial_date').drop_duplicates('policy_number',keep='first')
或
df.sort_values('initial_date').groupby('policy_number',as_index=False).first()
输出
policy_number initial_date
0 123456 01/02/97