Question

有我的数据集（head（））：

我知道user_id中有一个重复项。我用以下查询检查它： sum（df2.user_id.duplicated（））

现在我想知道这个用户ID。我该怎么办？

谢谢！

Answer 1

您可以应用loc来获取重复的行。

   duplicated_rows = df2.loc[df2.user_id.duplicated()]

或获取ID

   duplicated_ids = df2.loc[df2.user_id.duplicated(), 'user_id']

Answer 2

这应该有效：

dup = df2["user_id"]
df[dup.isin(dup[dup.duplicated()])].sort("user_id")

Answer 3

pandas单行代码：如果df是您的原始数据帧

dupl_id = df[df.duplicated(subset='user_id', keep='first')]['user_id']