我试图从s3读取并对数据帧进行计数。我有一个76 r3.4xlarge(1个主服务器和75个从服务器)的集群。我设置:
spark.dynamicAllocation.enabled "true"
maximizeResourceAllocation "true"
当我查看Spark UI时,我只是看到了:
只有25个执行者 - 其中只有7个有活动任务(在13到28之间变化),其余的有0个活动任务。我的工作不是利用完整的集群容量。数据有240个分区,SparkUI中的总任务是241.
有人可以解释为什么只有少数执行者正在工作,为什么我只看到25个执行者而不是75个执行者?我怎样才能利用完整的群集容量?
群集详细信息: r3.4xLarge VCPU核心= 32 内存= 122 GB
更新1: 我尝试过设置: spark.dynamicAllocation.enabled" false" maximizeResourceAllocation" false"
和
sqlSession.conf.set("spark.executor.cores", 5)
sqlSession.conf.set("spark.executor.instances", 375)
sqlSession.conf.set("spark.executor.memory", "38G")
但我仍然没有在UI中看到375个执行者。
由于