在spark java中过滤和分组多个DataSet

时间:2017-06-21 00:14:46

标签: java apache-spark dataset apache-spark-sql rdd

我很兴奋。下面是我要求的要求

1st RDD

empno first-name last-name
0        fname     lname
1        fname1    lname1

2nd rdd
empno dept-no dept-code
0       1        a
0       1        b
1       1        a
1       2        a

3rd rdd
empno history-no address
0       1            xyz
0       2            abc
1       1            123
1       2            456
1       3            a12

我必须为每个员工生成一个组合所有RDD的文件,平均人数为200k

期望的输出:

seg-start emp-0
seg-emp 0-fname-lname
seg-dept 0-1-a
seg-dept 0-1-b
seg-his 0-1-xyz
seg-his 0-2-abc
seg-end emp-0
seg-start emp-1
......
seg-end emp-1

如何通过组合RDD来实现这一目标?请注意,数据不是直接写的,因为它在这里显示,我们正在将数据转换为业务有效格式(例如: - e0xx5fname5lname是0-fname-lname),所以需要专家的帮助,作为当前的批处理程序运行数小时写入数据,考虑使用spark来有效地处理数据。

0 个答案:

没有答案