Question

我的桌子很长，如下所示：

    A    B    C    D    .......
0   au   br   gt   uy
1   cd   gq   gt   uy
2   fg   br   gt   ml
3   kl   br   gt   wx

..............

我想计算并打印每列重复项，例如：

我只发现对一列重复项进行计数：

df.duplicated(['B']).sum()

我是否必须写所有列（大约30列），或者可以使用熊猫提供的某些内容？我已经尝试过了，但是不起作用：

df.duplicated(df.loc[:,:]).sum()

Answer 1

用nunique减去DataFrame的长度：

;WITH XMLNAMESPACES(DEFAULT 'http://www.w3.org/2001/XMLSchema')
UPDATE globalDB.Inbox
SET inboxXml.modify('replace value of (//ReceiveDeliveryHeader/DocumentID/ID/@accountingEntity[.="ABC"])[1] with "ZZZ"')
WHERE inboxCId = '207435-N'

或将apply与duplicated一起使用，分别获取每一列的布尔掩码，并使用df = len(df) - df.nunique() print (df) A 0 B 2 C 3 D 1 dtype: int64计算sum值的计数：

True

在Pandas DataFrame中以每列的行数计算重复项

1 个答案: