Question

我有一个包含两列的数据框。第一列，比如A，有重复，第二列没有。

我试过了

df["A"].drop_duplicates(inplace=True)

但返回相同的行数。如何删除“A”列中的值相同的行？

示例：

John Miller
John Smith
Mark Robinson
Jeffrey Robinson

应该返回

John Miller
Mark Robinson
Jeffrey Robinson

Answer 1

使用drop_duplicates参数subset：

df.drop_duplicates(subset=['A'],inplace=True)
print (df)
         A         B
0     John    Miller
2     Mark  Robinson
3  Jeffrey  Robinson

文档：

子集：列标签或标签序列，可选

仅考虑某些列来识别重复项，默认情况下使用所有列