我想从dataframe
中删除重复项和大多数相似内容df["ID","name","Color"] = {[123,BMW 2017,Black],
[124,BMW 2016,Black],
[125,KIA,Blue],
[126,Mini,Yellow],
[127,Skoda,White],
[128,BMW,White]}
结果应为
{[123,BMW 2017,Black],
[125,KIA,Blue],
[126,Mini,Yellow],
[127,Skoda,White],
[128,BMW,White]}
答案 0 :(得分:0)
如果年份不重要,那么您需要将其拆分为单独的列,或者至少预先处理您的名称列以将其删除。将该字段拆分为单词并仅比较第一个单词。 “删除重复”(删除重复)基于这些标准。
您将 name.split()[0] 放入比较条件:将字符串拆分为单个单词,但只使用第一个单词。