如何在EMR集群中运行两次Spark作业?

时间:2020-05-04 09:03:58

标签: pyspark amazon-emr

我有一个在EMR集群中运行的实时Spark作业,还有另一个在另一个EMR集群中运行的批处理作业,并且该作业在特定时间触发。 如何在一个EMR群集中运行这两个作业?

任何建议。

1 个答案:

答案 0 :(得分:2)

如果两个EMR中的步骤都不相互依赖,则可以使用EMR中称为Concurrency的功能来解决您的用例。此功能仅意味着您一次可以并行运行多个步骤。

EMR版本 5.28.0 中具有此功能。如果使用的版本比此版本旧,则无法使用此功能。

从AWS控制台启动EMR时,此功能在用户界面中称为“并发” 。您可以选择1到256之间的任何数字。

如果要从AWS CLI启动EMR,则此功能称为'StepConcurrencyLevel'

您可以在multiple steps now in EMR AWS CLI details

了解更多信息
相关问题