使用Pandas将重复项提取到新的数据框中

时间:2018-08-27 19:06:22

标签: python pandas dataframe duplicates

我有一个包含许多列的大型数据框。这些列中的一列应该是唯一ID,而另一列是Year。不幸的是,“唯一ID”列中有重复项。

我知道如何生成所有重复项的列表,但是我真正想做的是将它们提取出来,以便仅保留第一个条目(按年份)。例如,数据框当前看起来像这样(带有许多其他列):

ID    Year
----------
123   1213
123   1314
123   1516
154   1415
154   1718
233   1314
233   1415
233   1516

我想做的就是将此数据帧转换为:

ID    Year
----------
123   1213
154   1415
233   1314

同时将那些重复项存储在另一个数据框中:

ID    Year
----------
123   1314
123   1516
154   1415
233   1415
233   1516

我可以逐年删除重复项以保留最旧的条目,但是我不确定如何将重复项放入可以存储为另一个数据框的列表中。

我该怎么做?

1 个答案:

答案 0 :(得分:2)

使用In-Rply-To

duplicated