我正在尝试组合两个JavaPairRDD,以便我可以对组合数据集执行reduceByKey作业,如下所示:
JavaPairRDD data1 = ...
JavaPairRDD data2 = ...
我想要一个包含data1和data2的新数据集,如:
JavaPairRDD data_total =(data1 + data2)
这样我就可以在组合数据集上按键减少:
JavaPairRDD输出= data_total.reduceByKey(...我的reduce函数...);
组合data1和data2的最佳方法是什么?或者解决这个问题的最佳方法是什么?
非常感谢!
答案 0 :(得分:3)
您可以使用union
:
// Return the union of this RDD and another one.
union(JavaPairRDD<K,V> other)