Apache spark shell上下文:使用shell时如何设置分区数:我正在审查的文档中尚不清楚。只是默认的2个分区吗?
答案 0 :(得分:0)
但是分区的数量是什么? Spark中有许多不同的参数(例如,在使用RDD进行转换时,用于改组spark.sql.shuffle.partitions,spark.default.parallelism)。您还可以使用COALESCE / REPARTITION等更改Dateset / Datafrem的分区数。
在本地PC或hadoop群集上工作时,数据集的默认分区数量也不同。
您需要指定需要为分区设置的确切内容吗?
这里有一些很好的链接,可以进一步阐明您的问题:
How does Spark partition(ing) work on files in HDFS?
Spark Partitions: Loading a file from the local file system on a Single Node Cluster