标签: join pyspark pyspark-sql pyspark-dataframes
与MapReduce中一样,当数据不存在时,Shuffle哈希联接效果最佳 偏斜并均匀分布在各个键之间。
这是我正在阅读的有关洗牌哈希联接的状态。 但是,如果密钥平均分配但每个密钥只有一个,该怎么办?