Apache Spark Shell:如何设置分区数?

时间:2018-09-04 22:21:34

标签: apache-spark

Apache spark shell上下文:使用shell时如何设置分区数:我正在审查的文档中尚不清楚。只是默认的2个分区吗?

1 个答案:

答案 0 :(得分:0)

但是分区的数量是什么? Spark中有许多不同的参数(例如,在使用RDD进行转换时,用于改组spark.sql.shuffle.partitions,spark.default.parallelism)。您还可以使用COALESCE / REPARTITION等更改Dateset / Datafrem的分区数。

在本地PC或hadoop群集上工作时,数据集的默认分区数量也不同。

您需要指定需要为分区设置的确切内容吗?

这里有一些很好的链接,可以进一步阐明您的问题:

How does Spark partition(ing) work on files in HDFS?

Spark Partitions: Loading a file from the local file system on a Single Node Cluster