Question

我想根据姓名和性别从数据框中删除重复的行。假设我有一个数据框

df = pd.DataFrame({
    'name':['A','B','A','C','A'],
    'age':[1,6,2,3,4],
    'gender': ['F', 'M', 'F', 'F', 'M']
})

我想要删除索引0和4上的A，并保留索引2上的A。

Answer 1

结果= df.drop_duplicates(subset=['name'], keep='first')

Answer 2

使用两列的子集删除重复项。您需要同时考虑姓名和性别。

输入

  name  age gender
0    A    1      F
1    B    6      M
2    A    2      F
3    C    3      F
4    A    4      M

代码

df.drop_duplicates(['name', 'gender'], keep='first')

输出

  name  age gender
0    A    1      F
1    B    6      M
3    C    3      F
4    A    4      M