将两个JavaRDD组合用于下一个reducer作业

时间:2015-03-09 18:20:29

标签: apache-spark hadoop2

我正在尝试组合两个JavaPairRDD,以便我可以对组合数据集执行reduceByKey作业,如下所示:


JavaPairRDD data1 = ...

JavaPairRDD data2 = ...

我想要一个包含data1和data2的新数据集,如:

JavaPairRDD data_total =(data1 + data2)

这样我就可以在组合数据集上按键减少:

JavaPairRDD输出=             data_total.reduceByKey(...我的reduce函数...);


组合data1和data2的最佳方法是什么?或者解决这个问题的最佳方法是什么?

非常感谢!

1 个答案:

答案 0 :(得分:3)

您可以使用union

// Return the union of this RDD and another one.
union(JavaPairRDD<K,V> other)