我有以下数据框:
df=pd.DataFrame({'cluster':[1,1,1,2,8],'ssn':['123','','','567','123']})
我想用匹配的ssns链接记录。在这种情况下,我要链接群集1和8。预期的输出如下:
cluster ssn
0 1 123
1 1
2 1
3 2 567
4 1 123
我甚至在定义一种方法来解决这个问题(这意味着我应该使用数据透视表,groupby)。因此,即使我对如何处理这种情况有任何指导或建议,我也会继续努力。
答案 0 :(得分:2)
使用pandas.DataFrame.groupby.transform
:
df['cluster'] = df.groupby('ssn').transform(min)
输出:
cluster ssn
0 1 123
1 1
2 1
3 2 567
4 1 123