我是EMR的新手,并尝试使用类似command-runner.jar spark-submit --deploy-mode cluster --class com.xx.xx.className s3n://mybuckets/spark-jobs.jar
的方法启动Spark工作
但是,spark作业需要凭据作为环境变量,我的问题是将凭证作为环境变量传递给spark作业的最佳方法是什么。
谢谢!
答案 0 :(得分:0)
我问了你一个问题,亲自为自己寻找解决方案。现在作为临时解决方案,我将凭据作为cmd线参数传递。将来,我正在考虑添加一个自定义引导脚本,该脚本将从服务中获取数据并创建〜/ .aws / credentials和配置文件。 希望对您有所帮助,或者如果您发现了其他选择,请在此处发布。
答案 1 :(得分:-1)
在这里查看:AWS EMR 4.0 - How can I add a custom JAR step to run shell commands此处:http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-script.html 尝试像这样运行步骤(参数):/ usr / bin / spark-submit --deploy-mode cluster --class