EMR活动的数据管道失败

时间:2017-11-20 12:37:53

标签: apache-spark amazon-emr amazon-data-pipeline

我正在尝试在AWS Data-pipeline上运行一个火花步骤。我得到以下例外: -

  

amazonaws.datapipeline.taskrunner.TaskExecutionException:失败   完整的EMR转换。在   amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:67)   在   amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16)   在   amazonaws.datapipeline.taskrunner.TaskPoller.executeRemoteRunner(TaskPoller.java:136)   在   amazonaws.datapipeline.taskrunner.TaskPoller.executeTask(TaskPoller.java:105)   在   amazonaws.datapipeline.taskrunner.TaskPoller $ 1.run(TaskPoller.java:81)   在   private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76)   在   private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53)   在java.lang.Thread.run(Thread.java:748)引起:   amazonaws.datapipeline.taskrunner.TaskExecutionException:EMR作业   使用jobFlowId'@ DefaultEmrActivity1_2017-11-20T12:13:08_Attempt = 1'   'j-2E7PU1OK3GIJI'失败,状态为'FAILED',原因为'Cluster'   在最后一步完成后准备就绪。'步   'DF-0693981356F3KEDFQ6GG_ @ DefaultEmrActivity1_2017-11-20T12:13:08_Attempt = 1'   处于“FAILED”状态,原因为“null”   amazonaws.datapipeline.cluster.EmrUtil.runSteps(EmrUtil.java:286)at at   amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:63)   ......还有7个

群集正在正常旋转。

以下是管道的屏幕截图: -

screenshot

我认为活动中的“步骤”存在一些问题。任何输入都会有所帮助。

1 个答案:

答案 0 :(得分:2)

问题在于: - 1)脚本应该以逗号分隔。类似的东西: -

command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.amazon.Main

链接: - http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html

2)EmrActivity不支持Staging。因此,我们不能在步骤指令中使用${INPUT1_STAGING_DIR}。目前,我已将其替换为硬编码的S3网址。