如何使用scala在spark中合并2个不同的rdd

时间:2016-09-12 10:09:41

标签: scala apache-spark rdd

我试图合并2个rdds。如果我的rdd1由2个元素的2个记录组成,则它们都是字符串ex: key_A:value_A和Key_B:value_B

rdd2还包含2个元素的1条记录,这两个元素都是字符串 key_C:value_c

我的最终rdd看起来像这样: key_A:value_A,Key_B:value_B,key_C:value_c

我们可以使用rdd的union方法但它不起作用。 Plz友善的帮助 使用2 rdds的联合应该2个不同的rdd的行包含相同的没有元素或者大小可以不同....... ??

2 个答案:

答案 0 :(得分:2)

尝试加入:

 String string = "09:00-12:00"
 String Array[] = string.toString().split("-");

当调用类型为(K,V)和(K,W)的数据集时,返回(K,(V,W))对的数据集以及每个键的所有元素对。通过leftOuterJoin,rightOuterJoin和fullOuterJoin支持外连接。

See the associated section of the docs

答案 1 :(得分:0)

Model正在发挥作用。

示例代码为:

union