信息重复

时间:2018-07-10 13:38:52

标签: python excel pandas dataframe duplicates

我有一个包含[CPF,名称,年龄]列的df。 我需要找到在基础上重复的CPF,并将此人的姓名与CPF一起返回。 到目前为止,我已经做到了。

    TrueDuplicat = base.groupby(['CPF']).size().reset_index(name='count')
    TrueDuplicat = TrueDuplicat[TrueDuplicat['count']>1]

我放的时候:

    TrueDuplicat = TrueDuplicat[['name','CPF']]

我收到错误“ [['name']不在索引中”。

如何获得具有该人姓名的重复CPF?

Exemplo do DF

CPF         name  age

38445675455  Alex  15

54785698574  Ana   25

38445675455  Bento 22

65878584558  Caio  33

1 个答案:

答案 0 :(得分:1)

groupby之后,name中没有TrueDuplicat列。对于您发布的示例,TrueDuplicat是:

           CPF  count
0  38445675455      2

如果要在TrueDuplicat中查找与CPF值相对应的名称,则可以执行类似的操作

df[df['CPF'].isin(TrueDuplicat['CPF'].tolist())]

以您的示例为例,

           CPF   name  age
0  38445675455   Alex   15
2  38445675455  Bento   22