将Spark步骤提交到AWS EMR集群时如何指定核心实例节点

时间:2019-07-19 23:19:30

标签: apache-spark pyspark amazon-emr

我正在AWS上为我的EMR集群运行多个实例。 我有2个CORE节点实例和1个MASTER节点

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/emr.html#EMR.Client.add_job_flow_steps

我正在使用PySpark提交作业,但是在指定要在其上运行的CORE节点上看不到任何东西。 我以为这是自动完成的(例如循环样式?)

有没有办法做到这一点?

1 个答案:

答案 0 :(得分:0)

您始终将步骤提交给主节点,而不是核心节点。然后,主服务器将任务分发给集群的工作程序(核心或任务节点中的Spark执行程序)。