Question

我有一个火花应用程序。它会多次连接一些表并将结果写入HDFS。

我的提交脚本：

spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 14G \
--driver-cores 6 \
--executor-memory 14G \
--executor-cores 4 \
--num-executors 50 \
--conf spark.sql.autoBroadcastJoinThreshold=31457280 \
--conf spark.sql.shuffle.partitions=200 \
--class my.main.class\
my.jar

问题： 在Spark WebUI中，我喜欢各个阶段在同一个exector中执行：为什么在同一个执行器pc-xxxx269中执行一个阶段的200个任务？

Answer 1

可能会以两种方式发生 1。没有适用的分区 2。如果您使用散列分区，则所有Keys散列值都足够接近

在什么情况下，一个阶段中的所有任务都在同一个执行器中执行

1 个答案: