如何从RStudio在YARN上初始化新的Spark上下文和执行程序编号

时间:2015-09-16 13:48:34

标签: r apache-spark rstudio rstudio-server sparkr

我正在使用SparkR

我可以使用这样的命令在YARN上设置具有所需数量的executorsexecutor-cores的Spark Context:

spark/bin/sparkR --master yarn-client --num-executors 5 --executor-cores 5

现在我正在尝试初始化一个新的Spark上下文,但是从RStudio开始,这比常规命令行更适合使用。

我想到要做到这一点,我需要使用sparkR.init()功能。有一个选项master,我设置为yarn-client,但如何指定num-executorsexecutor-cores?这是我堆积的地方

library(SparkR, lib.loc = "spark-1.5.0-bin-hadoop2.4/R/lib")

sc <- sparkR.init(sparkHome = "spark-1.5.0-bin-hadoop2.4/",
                  master = "yarn-client")

1 个答案:

答案 0 :(得分:2)

sparkEnvir提供sparkR.init参数应该有效:

sparkEnvir <- list(spark.num.executors='5', spark.executor.cores='5')

sc <- sparkR.init(
    sparkHome = "spark-1.5.0-bin-hadoop2.4/", 
    master = "yarn-client",
    sparkEnvir = sparkEnvir)