所以我是pandas python的新手。目前,我的任务是确定" id"列是重复的。例如,如果ID 413出现超过1次,则认为是重复的。由于有超过600,000个ID,我需要知道它的代码。请帮忙!
答案 0 :(得分:0)
你可以使用duplicated
返回一个布尔系列来掩盖df,然后调用unique
来返回重复ID的数组:
In [196]:
df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]})
df
Out[196]:
ID
0 0
1 1
2 1
3 3
4 4
5 5
6 6
7 6
8 6
In [201]:
df[df['ID'].duplicated()]['ID'].unique()
Out[201]:
array([1, 6], dtype=int64)