我应该为ipython notebook输入什么代码来确定csv文件的ID列中的代码是否唯一?
我试过在网上搜索但无济于事。
答案 0 :(得分:2)
最简单的方法是将df的长度与unique
值的长度进行比较:
len(df) == len(df['ID'].unique())
将产生True
或False
您也可以拨打drop_duplicates()
:
len(df) == len(df['ID'].drop_duplicates())
另外nunique
:
len(df) == df['ID'].nunique()
示例:
In [6]:
df = pd.DataFrame({'a':[0,1,1,2,3,4]})
df
Out[6]:
a
0 0
1 1
2 1
3 2
4 3
5 4
In [7]:
len(df) == df['a'].nunique()
Out[7]:
False
另一种方法是反转从duplicated
返回的布尔序列并传递此np.all
,如果所有值都是True
,则返回true,对于此示例数据,我们得到一个False
1}}因此它将产生False
:
In [11]:
np.all(~df['a'].duplicated())
Out[11]:
False