pyspark通过特定密钥加入rdds

时间:2017-03-15 22:32:43

标签: join pyspark rdd

我有两个需要将它们连接在一起的rdds。它们看起来如下:

RDD1集

[(u'2', u'100', 2),
 (u'1', u'300', 1),
 (u'1', u'200', 1)]

RDD2

[(u'1', u'2'), (u'1', u'3')]

我想要的输出是:

[(u'1', u'2', u'100', 2)]

所以我想从RDD2中选择具有相同RDD1第二个值的那个。我尝试过加入和笛卡尔,没有人工作,甚至没有接近我正在寻找的东西。我是Spark的新手,非常感谢你们的任何帮助。

由于

2 个答案:

答案 0 :(得分:5)

对我来说,你的过程看起来像手动。以下是示例代码: -

YYYY

输出: -

rdd = sc.parallelize([(u'2', u'100', 2),(u'1', u'300', 1),(u'1', u'200', 1)])
rdd1 = sc.parallelize([(u'1', u'2'), (u'1', u'3')])
newRdd = rdd1.map(lambda x:(x[1],x[0])).join(rdd.map(lambda x:(x[0],(x[1],x[2]))))
newRdd.map(lambda x:(x[1][0], x[0], x[1][1][0], x[1][1][1])).coalesce(1).collect()

答案 1 :(得分:5)

Dataframe 如果允许在解决方案中使用Spark Dataframe。您可以将给定的RDD转换为数据帧并将相应的列连接在一起。

df1 = spark.createDataFrame(rdd1, schema=['a', 'b', 'c'])
df2 = spark.createDataFrame(rdd2, schema=['d', 'a'])
rdd_join = df1.join(df2, on='a')
out = rdd_join.rdd.collect()

RDD 只需将要加入的密钥压缩到第一个元素,然后只需使用join进行加入

rdd1_zip = rdd1.map(lambda x: (x[0], (x[1], x[2])))
rdd2_zip = rdd2.map(lambda x: (x[1], x[0]))
rdd_join = rdd1_zip.join(rdd2_zip)
rdd_out = rdd_join.map(lambda x: (x[0], x[1][0][0], x[1][0][1], x[1][1])).collect() # flatten the rdd
print(rdd_out)