一个简短的问题,只是试图了解spark.sql.shuffle.partitions
到底指的是什么?我们是在谈论广泛转换结果的分区数量,还是在广泛转换结果分区之前的中间某种中间分区中发生的事情?
由于我的理解,按照我们的广泛转换
Parents RDDs -> shuffle files -> Child RDDs
spark.sql.shuffle.partitions参数在这里指的是什么? 随机播放文件或儿童RDD 或其他我忽略的内容?
答案 0 :(得分:1)
[官方文档] 9https://spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options中已经对此进行了解释:
spark.sql.shuffle.partitions
200配置在对连接或聚合进行数据混排时要使用的分区数。
换句话说,它是子Dataset
的分区数。