Question

我想根据另一列中的值从数据集中的特定列中删除重复项。将此视为我的数据集：

我想删除B列中的重复项，但是根据A栏中的值。这样的事情：

对于A列中的值，B列中不应存在任何重复值。我考虑使用 drop_duplicate ，但如何在其中灌输条件？

Answer 1

也许你可以使用：

df.groupby(['A'])['B'].apply(np.unique)

但是这条指令并没有返回数据帧，但是这样的话：

A
1    [10, 12, 13]
2        [10, 24]
3         [9, 10]
Name: B, dtype: object

Answer 2

简单的df.drop_duplicates(subset=['A','B'])应该会产生预期的输出。在这种情况下，任何A和B都与前一行匹配的行将被视为重复并删除。