Question

我有一个包含[CPF，名称，年龄]列的df。我需要找到在基础上重复的CPF，并将此人的姓名与CPF一起返回。到目前为止，我已经做到了。

    TrueDuplicat = base.groupby(['CPF']).size().reset_index(name='count')
    TrueDuplicat = TrueDuplicat[TrueDuplicat['count']>1]

我放的时候：

    TrueDuplicat = TrueDuplicat[['name','CPF']]

我收到错误“ [['name']不在索引中”。

如何获得具有该人姓名的重复CPF？

Exemplo do DF

CPF         name  age

38445675455  Alex  15

54785698574  Ana   25

38445675455  Bento 22

65878584558  Caio  33

Answer 1

在groupby之后，name中没有TrueDuplicat列。对于您发布的示例，TrueDuplicat是：

           CPF  count
0  38445675455      2

如果要在TrueDuplicat中查找与CPF值相对应的名称，则可以执行类似的操作

df[df['CPF'].isin(TrueDuplicat['CPF'].tolist())]

以您的示例为例，

           CPF   name  age
0  38445675455   Alex   15
2  38445675455  Bento   22