删除重复和大多数类似于dataframe pandas python

时间:2017-10-11 23:19:00

标签: python dataframe duplicates

我想从dataframe

中删除重复项和大多数相似内容
df["ID","name","Color"] = {[123,BMW 2017,Black],
                           [124,BMW 2016,Black],
                           [125,KIA,Blue],
                           [126,Mini,Yellow],
                           [127,Skoda,White],
                           [128,BMW,White]}

结果应为

                          {[123,BMW 2017,Black],
                           [125,KIA,Blue],
                           [126,Mini,Yellow],
                           [127,Skoda,White],
                           [128,BMW,White]}

1 个答案:

答案 0 :(得分:0)

如果年份不重要,那么您需要将其拆分为单独的列,或者至少预先处理您的名称列以将其删除。将该字段拆分为单词并仅比较第一个单词。 “删除重复”(删除重复)基于这些标准。

您将 name.split()[0] 放入比较条件:将字符串拆分为单个单词,但只使用第一个单词。