大熊猫保持重复的最高价值

时间:2015-10-29 20:04:27

标签: python python-2.7 pandas duplicates

我的数据类似于:

id value duplicate
a   200  yes
a   12   yes
b   42   yes
c   12   no
b   532  yes
b   21   yes
...

要跟踪我使用的重复项df['duplicate'] = df.duplicated('id', keep=False)但是,我希望保留最高value的重复项,并标记或删除其他重复项。有什么建议吗?

1 个答案:

答案 0 :(得分:7)

啊我不知道为什么我没想到这个。 df.sort(['id', 'value']) df['is_duplicated'] = df.duplicated('id', keep='first')

对不起!