哪种情况下pyspark的shuffle(mapreduce?)不好?

时间:2019-09-21 23:55:59

标签: join pyspark pyspark-sql pyspark-dataframes

  

与MapReduce中一样,当数据不存在时,Shuffle哈希联接效果最佳   偏斜并均匀分布在各个键之间。

这是我正在阅读的有关洗牌哈希联接的状态。
但是,如果密钥平均分配但每个密钥只有一个,该怎么办?

  1. 当df1和df2分别具有不同的密钥对
  2. 什么时候df1比df2小得多?

0 个答案:

没有答案