spark.sql.shuffle.partitions到底指的是什么?

时间:2018-09-24 07:28:46

标签: apache-spark apache-spark-sql

一个简短的问题,只是试图了解spark.sql.shuffle.partitions到底指的是什么?我们是在谈论广泛转换结果的分区数量,还是在广泛转换结果分区之前的中间某种中间分区中发生的事情?

由于我的理解,按照我们的广泛转换

Parents RDDs -> shuffle files -> Child RDDs

spark.sql.shuffle.partitions参数在这里指的是什么? 随机播放文件儿童RDD 或其他我忽略的内容?

1 个答案:

答案 0 :(得分:1)

[官方文档] 9https://spark.apache.org/docs/latest/sql-programming-guide.html#other-configuration-options中已经对此进行了解释:

  

spark.sql.shuffle.partitions 200配置在对连接或聚合进行数据混排时要使用的分区数。

换句话说,它是子Dataset的分区数。