我有一个包含[CPF,名称,年龄]列的df。 我需要找到在基础上重复的CPF,并将此人的姓名与CPF一起返回。 到目前为止,我已经做到了。
TrueDuplicat = base.groupby(['CPF']).size().reset_index(name='count')
TrueDuplicat = TrueDuplicat[TrueDuplicat['count']>1]
我放的时候:
TrueDuplicat = TrueDuplicat[['name','CPF']]
我收到错误“ [['name']不在索引中”。
如何获得具有该人姓名的重复CPF?
Exemplo do DF
CPF name age
38445675455 Alex 15
54785698574 Ana 25
38445675455 Bento 22
65878584558 Caio 33
答案 0 :(得分:1)
在groupby
之后,name
中没有TrueDuplicat
列。对于您发布的示例,TrueDuplicat
是:
CPF count
0 38445675455 2
如果要在TrueDuplicat
中查找与CPF值相对应的名称,则可以执行类似的操作
df[df['CPF'].isin(TrueDuplicat['CPF'].tolist())]
以您的示例为例,
CPF name age
0 38445675455 Alex 15
2 38445675455 Bento 22