两个rdd加入的结果是什么?

时间:2017-08-25 05:58:44

标签: pyspark rdd

clickRdd中的元素是(h5id,[query]),其中h5id是一个长数字,查询是一个字符串; revealRdd中的元素是(h5id, [0:id, 1:query, 2:q0, 3:q1, 4:q2, 5:q3, 6:s0, 7:s1, 8:s2, 9:s3] ). clickJoin = clickRdd.join(revealRdd)的结果是什么,我想连接键是h5id。 加入后,任何人都可以给我内容吗?

1 个答案:

答案 0 :(得分:1)

加入的RDD将使用元组中的rdd值和hi5id作为键。

clickJoin.take(1)
[(hi5id,([query],[0:id, 1:query, 2:q0, 3:q1, 4:q2, 5:q3, 6:s0, 7:s1, 8:s2, 9:s3]))]