Question

我试图从s3读取并对数据帧进行计数。我有一个76 r3.4xlarge（1个主服务器和75个从服务器）的集群。我设置：

spark.dynamicAllocation.enabled "true" 
maximizeResourceAllocation "true"

当我查看Spark UI时，我只是看到了：

只有25个执行者 - 其中只有7个有活动任务（在13到28之间变化），其余的有0个活动任务。我的工作不是利用完整的集群容量。数据有240个分区，SparkUI中的总任务是241.

有人可以解释为什么只有少数执行者正在工作，为什么我只看到25个执行者而不是75个执行者？我怎样才能利用完整的群集容量？

群集详细信息： r3.4xLarge VCPU核心= 32 内存= 122 GB

更新1：我尝试过设置： spark.dynamicAllocation.enabled＆＃34; false＆＃34; maximizeResourceAllocation＆＃34; false＆＃34;

和

sqlSession.conf.set("spark.executor.cores", 5)

sqlSession.conf.set("spark.executor.instances", 375)

sqlSession.conf.set("spark.executor.memory", "38G")

但我仍然没有在UI中看到375个执行者。

由于

Spark：为什么有些执行器有0个活动任务和13个任务？

0 个答案: