我有一个像这样的数据框df
:
ID CreationDate(d.m.Y) ...
x 12.10.2015 ...
y 09.05.2015 ...
x 18.10.2015 ...
... ... ...
我知道duplicated()
和unique()
函数,因此我可以通过调用df$ID[duplicated(df$ID)]
找出重复的ID。然后我可以轻松地从表格中删除这些数据集 - 但我想要做的是保持只有数据表中的一个:最后创建的那个(有一个"更大的&# 34; CreationDate)。
在给出的示例中,我希望删除第一行,因为其CreationDate早于第三行。在这种情况下,它也是第一次出现,但在实际数据中并不确定。
我迷失了,不知道如何解决这个问题。我真的很感激帮助或任何建议!提前谢谢!