将jupyter中的pyspark设置为Deploy-mode集群

时间:2019-02-20 12:22:41

标签: python apache-spark pyspark jupyter-notebook cloudera-cdh

我已经在7台主机(2个主机,4个工作程序和1个边缘)上安装了带有spark2的cloudera CDH集群

我在边缘节点上安装了Jupyter服务器,我想将pyspark设置为在集群模式下运行,在笔记本上运行

os.environ ['PYSPARK_SUBMIT_ARGS'] ='-母纱--deploy-mode =集群pyspark-shell'

它给我“错误:群集部署模式不适用于Spark shell。”

有人可以帮我吗?

谢谢

2 个答案:

答案 0 :(得分:0)

这里的答案是你不能。首先,因为配置的木星在后台启动了pyspark shell会话。您不能在群集模式下运行。

我想到你的问题的一个灵魂可以是 天赋+火花魔术+ jupyter

在哪里Livy可以在yarn模式下运行,并将作业请求作为REST调用。 Spark_magic驻留在jupyter上。

您可以点击以下链接以获取更多有关此信息 https://blog.chezo.uno/livy-jupyter-notebook-sparkmagic-powerful-easy-notebook-for-data-scientist-a8b72345ea2d

答案 1 :(得分:0)

Major update.

I. Have succeeded to deploy a jupyter hub with cdh5.13, it works without no problems.

One thing to pay attention to is to install as default language python 3, with python 2, multiple jobs will failed because of incompatibility with cloudera package