从数据框中查找相关行

时间:2016-06-13 01:43:43

标签: apache-spark

我有一个数据框类型(name,id,Dept,DeptId):

john doe  | J30 | NSL | 01
max payne | M23 | ATL | 22
doe john  | D02 | NSL | 01
joyee     | J04 | NSL | 01
payne max | P04 | ATL | 22

错误地输入了一些数据并且创建了新的ID。我试图获取一个列表

J30 -> [ J30,D02 ]
M23 -> [ M23,P04 ]
D02 -> [ J30,D02 ]
J04 -> [ J04 ]
P04 -> [ M23,P04 ]

最终删除重复

U1 -> [ J30,D02 ]  
U2 -> [ M23,P04 ]
U3 -> [ J04 ]

我拥有的数据集非常庞大,我无法通过火花找到工作。任何指针都会很棒。

1 个答案:

答案 0 :(得分:2)

假设您的数据框名为df,并且第一个名称和第二个名称的顺序是数据集中发生的错误,那么可以使用reduceByKey方法对其进行分组。

do.call(cbind, lst)