如何在python中显示重复项?

时间:2018-07-30 09:52:31

标签: python pandas duplicates

有我的数据集(head()): enter image description here

我知道user_id中有一个重复项。我用以下查询检查它: sum(df2.user_id.duplicated())

现在我想知道这个用户ID。我该怎么办?

谢谢!

3 个答案:

答案 0 :(得分:3)

您可以应用loc来获取重复的行。

   duplicated_rows = df2.loc[df2.user_id.duplicated()]

或获取ID

   duplicated_ids = df2.loc[df2.user_id.duplicated(), 'user_id']

答案 1 :(得分:0)

这应该有效:

dup = df2["user_id"]
df[dup.isin(dup[dup.duplicated()])].sort("user_id")

答案 2 :(得分:0)

pandas单行代码:如果df是您的原始数据帧

dupl_id = df[df.duplicated(subset='user_id', keep='first')]['user_id']