我想删除WD列中的重复数据,如果它们具有相同的drug_id。
例如,WD列中有两个“哭”,同一个drug_id = 32.所以我想删除一个哭闹的行。
我怎么做?我知道如何复制行,但我不知道如何将此条件添加到此代码中。 df = df.apply(lambda x:x.drop_duplicates())
答案 0 :(得分:2)
您可以将for
与drop_duplicates
参数一起使用,该参数可选择将某些列视为重复项:
subset
如果上/下案例对于考虑重复项很重要,您可以尝试:
df.drop_duplicates(subset = ["drug_id", "WD"])
您可以将df[~df[['drug_id', 'WD']].apply(lambda x: x.str.lower()).duplicated()]
和drug_id
列转换为小写,使用WD
方法识别重复的行,然后使用生成的逻辑系列过滤掉重复的行。
实施例:
duplicated()