通过传递凭据在AWS EMR上运行spark

时间:2017-07-07 21:33:49

标签: amazon-web-services amazon-ec2 emr amazon-emr

我是EMR的新手,并尝试使用类似command-runner.jar spark-submit --deploy-mode cluster --class com.xx.xx.className s3n://mybuckets/spark-jobs.jar的方法启动Spark工作 但是,spark作业需要凭据作为环境变量,我的问题是将凭证作为环境变量传递给spark作业的最佳方法是什么。
谢谢!

2 个答案:

答案 0 :(得分:0)

我问了你一个问题,亲自为自己寻找解决方案。现在作为临时解决方案,我将凭据作为cmd线参数传递。将来,我正在考虑添加一个自定义引导脚本,该脚本将从服务中获取数据并创建〜/ .aws / credentials和配置文件。 希望对您有所帮助,或者如果您发现了其他选择,请在此处发布。

答案 1 :(得分:-1)

在这里查看:AWS EMR 4.0 - How can I add a custom JAR step to run shell commands此处:http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-script.html 尝试像这样运行步骤(参数):/ usr / bin / spark-submit --deploy-mode cluster --class