使用数据管道进行火花作业的EMR活动

时间:2017-08-13 23:33:54

标签: emr amazon-data-pipeline

我正在尝试为数据管道中的spark作业运行一个Jar文件,但我不确定在EMR步骤中我需要传递什么?

1 个答案:

答案 0 :(得分:2)

EMR Step是您描述如何提交火花罐的地方。

创建新数据管道时,您可以选择"使用模板构建"然后选择"在弹性MapReduce集群上运行作业"。

现在在EmrActivity中,您应该描述要提交的步骤(如果需要,您还可以运行多个步骤)。

您可以阅读此AWS EMR Spark Step Guide以了解步骤是什么。简而言之,就是你描述如何提交火花工作的地方。

注意尽管在数据管道上有一些不明原因,你需要用','来替换空格。在这一步。这是我在datapipeline上运行的火花步骤的一个例子:

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>

我离开了部分配置,以便您可以了解使用它们的位置,并将其替换为&lt;&#34; text&#34;&gt;这样你就可以用自己的信息切换