数据框python删除重复项

时间:2018-12-11 07:17:32

标签: python dataframe

我有一个看起来像这样的数据框

  TaskID Status         Time         
0    123   Progress     12.00
1    234   Progress     12.10
2    123   Almost Done  12.20
3    234   Completed    12.40

我需要用最新的记录更新记录的状态,而不更改其他列的值,并删除最新的重复记录。

最终结果

   TaskID Status         Time         
0    123   Almost Done  12.00
1    234   Completed    12.10

我该如何实现?谢谢。

1 个答案:

答案 0 :(得分:1)

我认为您需要通过aggfirst进行汇总,并且 last

df = df.groupby('TaskID', as_index=False).agg({'Status':'last','Time':'first'})
print (df)
   TaskID       Status  Time
0     123  Almost Done  12.0
1     234    Completed  12.1