Question

我有以下数据框：

我想删除WD列中的重复数据，如果它们具有相同的drug_id。

例如，WD列中有两个“哭”，同一个drug_id = 32.所以我想删除一个哭闹的行。

我怎么做？我知道如何复制行，但我不知道如何将此条件添加到此代码中。 df = df.apply（lambda x：x.drop_duplicates（））

Answer 1

您可以将for与drop_duplicates参数一起使用，该参数可选择将某些列视为重复项：

subset

如果上/下案例对于考虑重复项很重要，您可以尝试：

df.drop_duplicates(subset = ["drug_id", "WD"])

您可以将df[~df[['drug_id', 'WD']].apply(lambda x: x.str.lower()).duplicated()]和drug_id列转换为小写，使用WD方法识别重复的行，然后使用生成的逻辑系列过滤掉重复的行。

实施例：

duplicated()