Question

我想从dataframe

中删除重复项和大多数相似内容

df["ID","name","Color"] = {[123,BMW 2017,Black],
                           [124,BMW 2016,Black],
                           [125,KIA,Blue],
                           [126,Mini,Yellow],
                           [127,Skoda,White],
                           [128,BMW,White]}

结果应为

                          {[123,BMW 2017,Black],
                           [125,KIA,Blue],
                           [126,Mini,Yellow],
                           [127,Skoda,White],
                           [128,BMW,White]}

Answer 1

如果年份不重要，那么您需要将其拆分为单独的列，或者至少预先处理您的名称列以将其删除。将该字段拆分为单词并仅比较第一个单词。 “删除重复”（删除重复）基于这些标准。

您将 name.split（）[0] 放入比较条件：将字符串拆分为单个单词，但只使用第一个单词。

删除重复和大多数类似于dataframe pandas python

1 个答案: