在Spark Scala中合并两个RDD

时间:2015-07-27 20:30:11

标签: scala apache-spark

我有两个RDD。

rdd1 =(String,String)

key1, value11
key2, value12
key3, value13

rdd2 =(String,String)

key2, value22
key3, value23
key4, value24

我需要使用rdd1和rdd2中的合并行形成另一个RDD,输出应该如下所示:

key2, value12 ; value22
key3, value13 ; value23

所以,基本上它只是取rdd1和rdd2的键的交集,然后加入它们的值。 **值应按顺序排列,即值(rdd1)+值(rdd2)而不是反转。

2 个答案:

答案 0 :(得分:3)

我想这可能就是你要找的东西:

<?xml version="1.0" encoding="utf-8"?>
<layer-list xmlns:android="http://schemas.android.com/apk/res/android">
    <item android:id="@+android:id/background"
        android:drawable="@drawable/custom_ratingbar_empty" />
    <item android:id="@+android:id/secondaryProgress"
        android:drawable="@drawable/custom_ratingbar_empty" />
    <item android:id="@+android:id/progress"
        android:drawable="@drawable/custom_ratingbar_filled" />
</layer-list>

当调用类型为(K,V)和(K,W)的数据集时,返回(K,(V,W))对的数据集以及每个键的所有元素对。通过leftOuterJoin,rightOuterJoin和fullOuterJoin支持外连接。

See the associated section of the docs

答案 1 :(得分:1)