Pyspark与Jupyter整合

时间:2017-04-04 12:27:34

标签: pyspark jupyter

我已经在我的机器中安装了Anaconda(python 2.7版本)并启动了jupyter笔记本,其中包含“PYSPARK_DRIVER_PYTHON = jupyter”和PYSPARK_DRIVER_PYTHON_OPTS =“notebook”,我正在连接到jupyter笔记本但无法运行“print”命令。当我正在运行命令时,它将转到下一行,但不显示输出,并且打印不会以颜色突出显示。

我已经在我的windows机器(独立模式)中安装了pyspark并在命令提示符下运行,并且工作正常.....但我需要在jupyter笔记本(windows)中运行。任何人都可以帮助我吗?

2 个答案:

答案 0 :(得分:1)

如果您已经正确设置了pyspark shell,那么这就是您在Windows上使用Jupyter设置Pyspark所需要做的所有事情。

  1. 添加2个新的环境变量,设置

    • PYSPARK_DRIVER_PYTHON到jupyter
    • PYSPARK_DRIVER_PYTHON_OPTS到笔记本
  2. 从CMD提示符处运行pyspark而不是' jupyter notebook'

  3. 这应该可以解决问题。

答案 1 :(得分:0)

有关最新设置,请查看他们的官方jupyter docker repo。

这是使用Spark 2.1.0的Jupyter 4.x,Hadoop 2.7

docker run -it --rm -p 8888:8888 jupyter/pyspark-notebook

Jupyter Notebook Python, Spark, Mesos Stack

附注,

1 jupyter使用配置文件,而ipython使用配置文件。我相信如果你想在本地运行spark独立。看看Dockerfile并找出它的神奇之处。

2

中的

https://github.com/jupyter/docker-stacks更多黄金

enter image description here