Question

我很兴奋。下面是我要求的要求

1st RDD

empno first-name last-name
0        fname     lname
1        fname1    lname1

2nd rdd
empno dept-no dept-code
0       1        a
0       1        b
1       1        a
1       2        a

3rd rdd
empno history-no address
0       1            xyz
0       2            abc
1       1            123
1       2            456
1       3            a12

我必须为每个员工生成一个组合所有RDD的文件，平均人数为200k

期望的输出：

seg-start emp-0
seg-emp 0-fname-lname
seg-dept 0-1-a
seg-dept 0-1-b
seg-his 0-1-xyz
seg-his 0-2-abc
seg-end emp-0
seg-start emp-1
......
seg-end emp-1

如何通过组合RDD来实现这一目标？请注意，数据不是直接写的，因为它在这里显示，我们正在将数据转换为业务有效格式（例如： - e0xx5fname5lname是0-fname-lname），所以需要专家的帮助，作为当前的批处理程序运行数小时写入数据，考虑使用spark来有效地处理数据。

在spark java中过滤和分组多个DataSet

0 个答案: