标签: apache-spark-sql
我正在执行内部联接,其中,左数据集和右数据集已由同一列重新划分为同一作业中的2001个分区。
我希望加入的数据集也有2001个分区,但它有200个分区,这是spark.sql.shuffle.partitions的默认值。
任何人都可以建议在什么情况下spark可以决定减少加入的数据集上的分区数吗?
致谢
特里。
答案 0 :(得分:0)
好-在某些情况下,LHS数据集可能比RHS数据集小很多,或者甚至是空的。如果我明确广播了LHS数据集,则加入的数据集具有预期的2001年分区。