使用jupyter笔记本电脑进行pyspark设置

时间:2018-12-14 20:24:14

标签: python pyspark jupyter-notebook spark-submit

我对使用pyspark相对较新,并且继承了Spark中内置的数据管道。我连接了一个主服务器,并通过终端使用spark-submit执行spark作业,然后通过集群部署模式通过master yarn执行。

这是我用来启动该过程的功能:

spark-submit --master yarn --num-executors 8 --executor-cores 3 --executor-memory 6g --name program_1 --deploy-mode cluster /home/hadoop/data-server/conf/blah/spark/1_program.py

该过程很好用,但是我对设置python / jupyter笔记本以类似的分布式方式执行命令非常感兴趣。我可以在笔记本中进行启动会话,但无法通过主线程和群集运行它。该过程仅在单个实例上运行,并且非常慢。我尝试启动配置类似于spark-submit的jupyter笔记本,但失败了。

在我启动spark-submit时,我一直在阅读一些有关使用配置启动python笔记本的博客文章。我的尝试没有用。

想看看是否有人可以帮助我运行带有分布式spark的python和/或帮助我找到执行jupyter笔记本的必要输入,类似于spark-submit。

我的python版本是2.7,spark版本是2.2.1。

0 个答案:

没有答案