我遇到了一个奇怪的情况:
df.userid.size # output: 11852
df.userid.nunique() # output: 11851
df[df.duplicated(['userid']) # outputs nothing
关于如何找到重复的用户ID的任何想法?
答案 0 :(得分:0)
很可能您在该列中有一个NaN
。
演示:
In [24]: df
Out[24]:
a
0 1.0
1 NaN
In [25]: df.a.nunique()
Out[25]: 1
In [26]: df.a.size
Out[26]: 2
In [27]: df.duplicated('a')
Out[27]:
0 False
1 False
dtype: bool