应用错误收集

通过传递凭据在AWS EMR上运行spark

时间：2017-07-07 21:33:49

标签： amazon-web-services amazon-ec2 emr amazon-emr

我是EMR的新手，并尝试使用类似command-runner.jar spark-submit --deploy-mode cluster --class com.xx.xx.className s3n://mybuckets/spark-jobs.jar的方法启动Spark工作但是，spark作业需要凭据作为环境变量，我的问题是将凭证作为环境变量传递给spark作业的最佳方法是什么。
谢谢！

2 个答案:

答案 0 :(得分：0)

我问了你一个问题，亲自为自己寻找解决方案。现在作为临时解决方案，我将凭据作为cmd线参数传递。将来，我正在考虑添加一个自定义引导脚本，该脚本将从服务中获取数据并创建〜/ .aws / credentials和配置文件。希望对您有所帮助，或者如果您发现了其他选择，请在此处发布。

答案 1 :(得分：-1)

在这里查看：AWS EMR 4.0 - How can I add a custom JAR step to run shell commands此处：http://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hadoop-script.html 尝试像这样运行步骤（参数）：/ usr / bin / spark-submit --deploy-mode cluster --class