使用pandas(python)

时间:2017-01-30 03:34:18

标签: python pandas

我有以下数据框: enter image description here

我想删除WD列中的重复数据,如果它们具有相同的drug_id。

例如,WD列中有两个“哭”,同一个drug_id = 32.所以我想删除一个哭闹的行。

我怎么做?我知道如何复制行,但我不知道如何将此条件添加到此代码中。 df = df.apply(lambda x:x.drop_duplicates())

1 个答案:

答案 0 :(得分:2)

您可以将fordrop_duplicates参数一起使用,该参数可选择将某些列视为重复项:

subset

如果上/下案例对于考虑重复项很重要,您可以尝试:

df.drop_duplicates(subset = ["drug_id", "WD"])

您可以将df[~df[['drug_id', 'WD']].apply(lambda x: x.str.lower()).duplicated()] drug_id列转换为小写,使用WD方法识别重复的行,然后使用生成的逻辑系列过滤掉重复的行。

实施例

duplicated()