我有一个数据框类型(name,id,Dept,DeptId):
john doe | J30 | NSL | 01
max payne | M23 | ATL | 22
doe john | D02 | NSL | 01
joyee | J04 | NSL | 01
payne max | P04 | ATL | 22
错误地输入了一些数据并且创建了新的ID。我试图获取一个列表
J30 -> [ J30,D02 ]
M23 -> [ M23,P04 ]
D02 -> [ J30,D02 ]
J04 -> [ J04 ]
P04 -> [ M23,P04 ]
最终删除重复
U1 -> [ J30,D02 ]
U2 -> [ M23,P04 ]
U3 -> [ J04 ]
我拥有的数据集非常庞大,我无法通过火花找到工作。任何指针都会很棒。
答案 0 :(得分:2)
假设您的数据框名为df,并且第一个名称和第二个名称的顺序是数据集中发生的错误,那么可以使用reduceByKey方法对其进行分组。
do.call(cbind, lst)