Question

我正在尝试为数据管道中的spark作业运行一个Jar文件，但我不确定在EMR步骤中我需要传递什么？

Answer 1

EMR Step是您描述如何提交火花罐的地方。

创建新数据管道时，您可以选择＆＃34;使用模板构建＆＃34;然后选择＆＃34;在弹性MapReduce集群上运行作业＆＃34;。

现在在EmrActivity中，您应该描述要提交的步骤（如果需要，您还可以运行多个步骤）。

您可以阅读此AWS EMR Spark Step Guide以了解步骤是什么。简而言之，就是你描述如何提交火花工作的地方。

注意尽管在数据管道上有一些不明原因，你需要用＆＃39;，＆＃39;来替换空格。在这一步。这是我在datapipeline上运行的火花步骤的一个例子：

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.exelate.main.App,--master,yarn-cluster,--name,<spark job name>,--num-executors,1000,--driver-cores,2,--driver-memory,10g,--executor-memory,16g,--executor-cores,4,<jar location on s3>,<jar arguments>

我离开了部分配置，以便您可以了解使用它们的位置，并将其替换为＆lt;＆＃34; text＆＃34;＆gt;这样你就可以用自己的信息切换

使用数据管道进行火花作业的EMR活动

1 个答案: