应用错误收集

我对使用pyspark相对较新，并且继承了Spark中内置的数据管道。我连接了一个主服务器，并通过终端使用spark-submit执行spark作业，然后通过集群部署模式通过master yarn执行。

这是我用来启动该过程的功能：

spark-submit --master yarn --num-executors 8 --executor-cores 3 --executor-memory 6g --name program_1 --deploy-mode cluster /home/hadoop/data-server/conf/blah/spark/1_program.py

该过程很好用，但是我对设置python / jupyter笔记本以类似的分布式方式执行命令非常感兴趣。我可以在笔记本中进行启动会话，但无法通过主线程和群集运行它。该过程仅在单个实例上运行，并且非常慢。我尝试启动配置类似于spark-submit的jupyter笔记本，但失败了。

在我启动spark-submit时，我一直在阅读一些有关使用配置启动python笔记本的博客文章。我的尝试没有用。

想看看是否有人可以帮助我运行带有分布式spark的python和/或帮助我找到执行jupyter笔记本的必要输入，类似于spark-submit。

我的python版本是2.7，spark版本是2.2.1。

使用jupyter笔记本电脑进行pyspark设置

0 个答案: