Question

所以我是pandas python的新手。目前，我的任务是确定＆＃34; id＆＃34;列是重复的。例如，如果ID 413出现超过1次，则认为是重复的。由于有超过600,000个ID，我需要知道它的代码。请帮忙！

Answer 1

你可以使用duplicated返回一个布尔系列来掩盖df，然后调用unique来返回重复ID的数组：

In [196]:

df = pd.DataFrame({'ID':[0,1,1,3,4,5,6,6,6,]})
df
Out[196]:
   ID
0   0
1   1
2   1
3   3
4   4
5   5
6   6
7   6
8   6
In [201]:

df[df['ID'].duplicated()]['ID'].unique()
Out[201]:
array([1, 6], dtype=int64)

我想知道如何提取重复的信息

1 个答案: