应用错误收集

Spark SQL-加入的数据集似乎已合并为更少的分区

时间：2018-08-21 12:57:52

标签： apache-spark-sql

我正在执行内部联接，其中，左数据集和右数据集已由同一列重新划分为同一作业中的2001个分区。

我希望加入的数据集也有2001个分区，但它有200个分区，这是spark.sql.shuffle.partitions的默认值。

任何人都可以建议在什么情况下spark可以决定减少加入的数据集上的分区数吗？

致谢

特里。

1 个答案:

答案 0 :(得分：0)

好-在某些情况下，LHS数据集可能比RHS数据集小很多，或者甚至是空的。如果我明确广播了LHS数据集，则加入的数据集具有预期的2001年分区。