我有两个需要将它们连接在一起的rdds。它们看起来如下:
RDD1集
[(u'2', u'100', 2),
(u'1', u'300', 1),
(u'1', u'200', 1)]
RDD2
[(u'1', u'2'), (u'1', u'3')]
我想要的输出是:
[(u'1', u'2', u'100', 2)]
所以我想从RDD2中选择具有相同RDD1第二个值的那个。我尝试过加入和笛卡尔,没有人工作,甚至没有接近我正在寻找的东西。我是Spark的新手,非常感谢你们的任何帮助。
由于
答案 0 :(得分:5)
对我来说,你的过程看起来像手动。以下是示例代码: -
YYYY
输出: -
rdd = sc.parallelize([(u'2', u'100', 2),(u'1', u'300', 1),(u'1', u'200', 1)])
rdd1 = sc.parallelize([(u'1', u'2'), (u'1', u'3')])
newRdd = rdd1.map(lambda x:(x[1],x[0])).join(rdd.map(lambda x:(x[0],(x[1],x[2]))))
newRdd.map(lambda x:(x[1][0], x[0], x[1][1][0], x[1][1][1])).coalesce(1).collect()
答案 1 :(得分:5)
Dataframe 如果允许在解决方案中使用Spark Dataframe。您可以将给定的RDD转换为数据帧并将相应的列连接在一起。
df1 = spark.createDataFrame(rdd1, schema=['a', 'b', 'c'])
df2 = spark.createDataFrame(rdd2, schema=['d', 'a'])
rdd_join = df1.join(df2, on='a')
out = rdd_join.rdd.collect()
RDD 只需将要加入的密钥压缩到第一个元素,然后只需使用join
进行加入
rdd1_zip = rdd1.map(lambda x: (x[0], (x[1], x[2])))
rdd2_zip = rdd2.map(lambda x: (x[1], x[0]))
rdd_join = rdd1_zip.join(rdd2_zip)
rdd_out = rdd_join.map(lambda x: (x[0], x[1][0][0], x[1][0][1], x[1][1])).collect() # flatten the rdd
print(rdd_out)