我有一个如下所述的数据框,我需要根据列c2,c3和c4找出重复的组,并相应地命名组。对于C1列中的任何值,如果行数相同并且所有行上的值都相同,则它是重复的组,应标有相同的组名,否则,它是唯一的组。 / p>
数据框:
df = pd.DataFrame({'C1': ['A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'C', 'D', 'D', 'D'],
'C2': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
'C3': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3'],
'C4': ['1', '2', '3', '4', '1', '2', '1', '2', '3', '4', '1', '2', '3']
})
预期结果:
对此有任何帮助吗?
答案 0 :(得分:1)
三个步骤
df['Newkey']=tuple(zip(df.C2,df.C3)) # make value to tuple
s=df.groupby('C1').Newkey.apply(tuple)# make all value to tuple
s2='G'+(s.reset_index().groupby('Newkey',sort=False).C1.ngroup()+1).astype(str)
df['Newkey']=df.C1.map(dict(zip(s.index,s2))) # map it back
df
C1 C2 C3 Newkey
0 A 1 1 G1
1 A 2 2 G1
2 A 3 3 G1
3 A 4 4 G1
4 B 1 1 G2
5 B 2 2 G2
6 C 1 1 G1
7 C 2 2 G1
8 C 3 3 G1
9 C 4 4 G1
10 D 1 1 G3
11 D 2 2 G3
12 D 3 3 G3