标签: apache-spark
我想了解两对rdd的加入是如何工作的?它是否会导致将同一个密钥的RDD数据混合到同一个分区?如果是这种情况,最好使用partitionBy函数来分区(通过join属性)创建RDD以进行较少的改组吗?
由于 ANKUR
答案 0 :(得分:2)
简短回答:是和是
至少需要洗牌1个RDD。如果已知基础RDD的分区,则仅对连接的RDD进行混洗。否则,两个RDD将被混洗,因为匹配的键落在同一个分区中。