我目前正在研究Jupyter(实验室)和PySpark 2.1.1。
我想在笔记本上更改spark.yarn.queue和master。由于内核,打开笔记本时spark
和sc
可用。
在this question之后,我尝试了
spark.conf.set("spark.yarn.queue", "my_queue")
但是根据spark.sparkContext.getConf()
,以上一行没有影响。
spark.conf.setMaster("yarn-cluster")
不起作用,因为spark.conf
没有这样的方法。
问题:如何从Jupyter笔记本电脑更改配置(队列和主服务器)?
(还是应该设置任何环境变量?)
答案 0 :(得分:1)
您可以尝试提前初始化火花,而不是在笔记本电脑中初始化。在您的终端上运行它:
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
pyspark --master <your master> --conf <your configuration> <or any other option that pyspark supports>.