我正在尝试在AWS Data-pipeline上运行一个火花步骤。我得到以下例外: -
amazonaws.datapipeline.taskrunner.TaskExecutionException:失败 完整的EMR转换。在 amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:67) 在 amazonaws.datapipeline.objects.AbstractActivity.run(AbstractActivity.java:16) 在 amazonaws.datapipeline.taskrunner.TaskPoller.executeRemoteRunner(TaskPoller.java:136) 在 amazonaws.datapipeline.taskrunner.TaskPoller.executeTask(TaskPoller.java:105) 在 amazonaws.datapipeline.taskrunner.TaskPoller $ 1.run(TaskPoller.java:81) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.executeWork(PollWorker.java:76) 在 private.com.amazonaws.services.datapipeline.poller.PollWorker.run(PollWorker.java:53) 在java.lang.Thread.run(Thread.java:748)引起: amazonaws.datapipeline.taskrunner.TaskExecutionException:EMR作业 使用jobFlowId'@ DefaultEmrActivity1_2017-11-20T12:13:08_Attempt = 1' 'j-2E7PU1OK3GIJI'失败,状态为'FAILED',原因为'Cluster' 在最后一步完成后准备就绪。'步 'DF-0693981356F3KEDFQ6GG_ @ DefaultEmrActivity1_2017-11-20T12:13:08_Attempt = 1' 处于“FAILED”状态,原因为“null” amazonaws.datapipeline.cluster.EmrUtil.runSteps(EmrUtil.java:286)at at amazonaws.datapipeline.activity.EmrActivity.runActivity(EmrActivity.java:63) ......还有7个
群集正在正常旋转。
以下是管道的屏幕截图: -
我认为活动中的“步骤”存在一些问题。任何输入都会有所帮助。
答案 0 :(得分:2)
问题在于: - 1)脚本应该以逗号分隔。类似的东西: -
command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.amazon.Main
链接: - http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-emrcluster.html
2)EmrActivity不支持Staging。因此,我们不能在步骤指令中使用${INPUT1_STAGING_DIR}
。目前,我已将其替换为硬编码的S3网址。