我有这个数据名人堂 image here
并执行以下代码:
unique_records_for_cols = terceros_prepared3_df.drop_duplicates(subset=['id'])
重复项已删除
但被删除的重复项不是正确的副本。
正确的做法是删除“ parent_id”列中没有空字段的重复项
一些脚本,用于删除有条件的重复项。重复(!='None')将在“ parent_id”列中删除
答案 0 :(得分:1)
为此,您想看看drop_duplicates
中的keep
参数。根据您的意思,您要设置keep='last'
:
unique_records_for_cols = terceros_prepared3_df.drop_duplicates(
subset=['id'], keep='last')