加入PairRDD会导致按键共同定位数据吗?

时间:2015-01-21 22:30:12

标签: apache-spark

我想了解两对rdd的加入是如何工作的?它是否会导致将同一个密钥的RDD数据混合到同一个分区?如果是这种情况,最好使用partitionBy函数来分区(通过join属性)创建RDD以进行较少的改组吗?

由于 ANKUR

1 个答案:

答案 0 :(得分:2)

简短回答:是和是

至少需要洗牌1个RDD。如果已知基础RDD的分区,则仅对连接的RDD进行混洗。否则,两个RDD将被混洗,因为匹配的键落在同一个分区中。