我很兴奋。下面是我要求的要求
1st RDD
empno first-name last-name
0 fname lname
1 fname1 lname1
2nd rdd
empno dept-no dept-code
0 1 a
0 1 b
1 1 a
1 2 a
3rd rdd
empno history-no address
0 1 xyz
0 2 abc
1 1 123
1 2 456
1 3 a12
我必须为每个员工生成一个组合所有RDD的文件,平均人数为200k
期望的输出:
seg-start emp-0
seg-emp 0-fname-lname
seg-dept 0-1-a
seg-dept 0-1-b
seg-his 0-1-xyz
seg-his 0-2-abc
seg-end emp-0
seg-start emp-1
......
seg-end emp-1
如何通过组合RDD来实现这一目标?请注意,数据不是直接写的,因为它在这里显示,我们正在将数据转换为业务有效格式(例如: - e0xx5fname5lname是0-fname-lname),所以需要专家的帮助,作为当前的批处理程序运行数小时写入数据,考虑使用spark来有效地处理数据。