在执行程序之间均匀分配任务

时间:2017-04-04 22:59:04

标签: apache-spark amazon-s3 emr

尝试使用EMR读取存储在S3中的csv文件(spark.read.csv("s3://...))。 S3存储桶中大约有100个文件,EMR集群中有大约300个实例,每个实例有两个执行器(每个7个核心)。我可以在spark UI中看到几乎所有任务都分配给10个执行器,每个执行器有10个任务,而不是每个任务被分配给不同的执行器以利用并行处理每个文件。

是否有一个旋钮强制任务分配到所有执行程序?

spark.dynamicAllocation.enabled设置为falsespark.executor.instances设置为群集中的执行程序数。

enter image description here

0 个答案:

没有答案