在pyspaek中结合两个rdd

时间:2019-11-17 07:39:12

标签: python apache-spark pyspark rdd

我在pyspark中有两个rdd

rdd1=sc.parallelize(['a','b'])
rdd2=sc.parallelize(['c','d'])

我想生成一个具有对的rdd,它们对每个rdd的一个元素得出结论。 [(a,c),(b,c),(a,d),(b,d)] 我尝试过

rdd3=rdd1.map(lambda x:x)+rdd2.map(lambda y:y)

失败

1 个答案:

答案 0 :(得分:1)

您正在寻找笛卡尔积:

rdd1.cartesian(rdd2)