在Pandas DataFrame中以每列的行数计算重复项

时间:2018-10-18 09:29:47

标签: python pandas dataframe duplicates

我的桌子很长,如下所示:

    A    B    C    D    .......
0   au   br   gt   uy
1   cd   gq   gt   uy
2   fg   br   gt   ml
3   kl   br   gt   wx

..............

我想计算并打印每列重复项,例如:

A   0    
B   2     
C   3     
D   1    

我只发现对一列重复项进行计数:

df.duplicated(['B']).sum()

我是否必须写所有列(大约30列),或者可以使用熊猫提供的某些内容?我已经尝试过了,但是不起作用:

df.duplicated(df.loc[:,:]).sum()

1 个答案:

答案 0 :(得分:1)

nunique减去DataFrame的长度:

;WITH XMLNAMESPACES(DEFAULT 'http://www.w3.org/2001/XMLSchema')
UPDATE globalDB.Inbox
SET inboxXml.modify('replace value of (//ReceiveDeliveryHeader/DocumentID/ID/@accountingEntity[.="ABC"])[1] with "ZZZ"')
WHERE inboxCId = '207435-N'

或将applyduplicated一起使用,分别获取每一列的布尔掩码,并使用df = len(df) - df.nunique() print (df) A 0 B 2 C 3 D 1 dtype: int64 计算sum值的计数:

True