我有一个看起来像这样的数据集
person date
001 2014-04-02
001 2014-04-03
001 2014-04-03
001 2014-04-04
002 2014-04-04
002 2014-04-04
002 2014-04-05
002 2014-04-06
003 2014-04-01
003 2014-04-03
003 2014-04-03
003 2014-04-07
日期列的格式为熊猫“ date_time”。如您所见,对于每个唯一的人员ID,都有两个相似的日期。我想删除每个唯一成员的重复日期,并保留任何重复日期。输出应如下所示:
person date
001 2014-04-02
001 2014-04-03
001 2014-04-04
002 2014-04-04
002 2014-04-05
002 2014-04-06
003 2014-04-01
003 2014-04-03
003 2014-04-07
而不是像我在df.drop_duplicates(subset="date", keep="first", inplace=True)
中尝试过的那样:
person date
001 2014-04-02
001 2014-04-03
001 2014-04-04
002 2014-04-05
002 2014-04-06
003 2014-04-01
003 2014-04-07
我的逻辑是选择人员001,查找其日期并删除重复的日期。然后转到人员002,查找其日期并删除重复的日期。对于003人类似,依此类推。有人可以帮我在熊猫中用Python解决这个问题吗?谢谢。