我们如何在Jupyter上修改PySpark配置

时间:2018-09-05 10:39:51

标签: apache-spark pyspark jupyter-notebook

我目前正在研究Jupyter(实验室)和PySpark 2.1.1。

我想在笔记本上更改spark.yarn.queue和master。由于内核,打开笔记本时sparksc可用。

this question之后,我尝试了

spark.conf.set("spark.yarn.queue", "my_queue")

但是根据spark.sparkContext.getConf(),以上一行没有影响。

spark.conf.setMaster("yarn-cluster")

不起作用,因为spark.conf没有这样的方法。

问题:如何从Jupyter笔记本电脑更改配置(队列和主服务器)?

(还是应该设置任何环境变量?)

1 个答案:

答案 0 :(得分:1)

您可以尝试提前初始化火花,而不是在笔记本电脑中初始化。在您的终端上运行它:

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

pyspark --master <your master> --conf <your configuration> <or any other option that pyspark supports>.

My source