如何有选择地删除重复项?

时间:2018-11-30 20:23:00

标签: python pandas dataframe

我有这个数据名人堂 image here

并执行以下代码:

unique_records_for_cols = terceros_prepared3_df.drop_duplicates(subset=['id'])

重复项已删除

  
    
      

image here

    
  

但被删除的重复项不是正确的副本。

正确的做法是删除“ parent_id”列中没有空字段的重复项

一些脚本,用于删除有条件的重复项。重复(!='None')将在“ parent_id”列中删除

1 个答案:

答案 0 :(得分:1)

为此,您想看看drop_duplicates中的keep参数。根据您的意思,您要设置keep='last'

unique_records_for_cols = terceros_prepared3_df.drop_duplicates(
                          subset=['id'], keep='last')