Spark SQL-加入的数据集似乎已合并为更少的分区

时间:2018-08-21 12:57:52

标签: apache-spark-sql

我正在执行内部联接,其中,左数据集和右数据集已由同一列重新划分为同一作业中的2001个分区。

我希望加入的数据集也有2001个分区,但它有200个分区,这是spark.sql.shuffle.partitions的默认值。

任何人都可以建议在什么情况下spark可以决定减少加入的数据集上的分区数吗?

致谢

特里。

1 个答案:

答案 0 :(得分:0)

好-在某些情况下,LHS数据集可能比RHS数据集小很多,或者甚至是空的。如果我明确广播了LHS数据集,则加入的数据集具有预期的2001年分区。