如何使用多个Dataset <tuple2>类型数据集中的值创建数据集

时间:2018-12-26 07:08:38

标签: apache-spark dataset java-pair-rdd

我有Dataset<Tuple2<A, B>>, Dataset<Tuple2<C, D>>, Dataset<Tuple2<E, F>>形式的多个不同类型的数据集。我想使用上面数据集中的值创建一个Dataset<myClass>类型的新数据集。

例如,将以以下方式构建myClass的单​​个对象:

myClass obj= myClass.builder
                    .id(A.getId())
                    .itemOfTypeC(C)
                    .value(D.getValue())
                    .itemOfTypeE(E)
                    .build();

我能想到的唯一解决方案是创建一个Map函数。但是我无法弄清楚如何让该函数立即遍历所有数据集,以及如何隔离各个类A,B,C,D,E,F。

0 个答案:

没有答案