Question

一个简短的问题，只是试图了解spark.sql.shuffle.partitions到底指的是什么？我们是在谈论广泛转换结果的分区数量，还是在广泛转换结果分区之前的中间某种中间分区中发生的事情？

由于我的理解，按照我们的广泛转换

Parents RDDs -> shuffle files -> Child RDDs

spark.sql.shuffle.partitions参数在这里指的是什么？ 随机播放文件或儿童RDD 或其他我忽略的内容？

Answer 1

[官方文档] 9https：//spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options中已经对此进行了解释：

spark.sql.shuffle.partitions 200配置在对连接或聚合进行数据混排时要使用的分区数。

换句话说，它是子Dataset的分区数。