colA colB
A 125
B 546
C 4586
D 547
A 869
B 789
A 258
E 123
我想创建两个新的数据框,第一个应基于'colA'中的唯一值,第二个应基于'colB'的重复值。 colB没有重复值。第一个输出是这样的:
ColA colB
A 125
B 546
C 4586
D 547
E 123
第二个输出是这样的:
colA colB
A 869
B 789
A 258
答案 0 :(得分:1)
对于第一组,使用drop_duplicates
。对于第二组,请使用duplicated
:
print (df.drop_duplicates("colA"))
colA colB
0 A 125
1 B 546
2 C 4586
3 D 547
7 E 123
print (df[df.duplicated("colA")])
colA colB
4 A 869
5 B 789
6 A 258