我正在尝试在AWS EMR控制台(Amazon Web Services)上运行Spark应用程序。我在jar中编译的Scala脚本将SparkConf设置作为参数或只是字符串:
val sparkConf = new SparkConf()
.setAppName("WikipediaGraphXPageRank")
.setMaster(args(1))
.set("spark.executor.memory","1g")
.registerKryoClasses(Array(classOf[PRVertex], classOf[PRMessage]))
但是,我不知道如何在上传和我设置群集时将Master-URL参数和其他参数传递给jar。要清楚,我知道如果我运行Spark-Shell,我会以另一种方式执行此操作,但我是Windows用户,并且使用当前的设置和工作,这将非常有用有一些方法可以在“步骤”中将主URL传递给EMR集群。
我不想使用Spark-Shell,我有一个接近的截止日期并且以这种方式设置所有内容并且感觉就像这样一个将主URL作为参数传递的小问题应该是可能的,考虑到AWS有一个在EMR上运行独立Spark应用程序的指南。
帮助将不胜感激!
答案 0 :(得分:1)
以下是通过EMR使用spark-submit的说明步骤:https://github.com/awslabs/emr-bootstrap-actions/blob/master/spark/examples/spark-submit-via-step.md