Question

我已经在我的机器中安装了Anaconda（python 2.7版本）并启动了jupyter笔记本，其中包含“PYSPARK_DRIVER_PYTHON = jupyter”和PYSPARK_DRIVER_PYTHON_OPTS =“notebook”，我正在连接到jupyter笔记本但无法运行“print”命令。当我正在运行命令时，它将转到下一行，但不显示输出，并且打印不会以颜色突出显示。

我已经在我的windows机器（独立模式）中安装了pyspark并在命令提示符下运行，并且工作正常.....但我需要在jupyter笔记本（windows）中运行。任何人都可以帮助我吗？

Answer 1

如果您已经正确设置了pyspark shell，那么这就是您在Windows上使用Jupyter设置Pyspark所需要做的所有事情。

添加2个新的环境变量，设置
- PYSPARK_DRIVER_PYTHON到jupyter
- PYSPARK_DRIVER_PYTHON_OPTS到笔记本
从CMD提示符处运行pyspark而不是＆＃39; jupyter notebook＆＃39;

这应该可以解决问题。

Answer 2

有关最新设置，请查看他们的官方jupyter docker repo。

这是使用Spark 2.1.0的Jupyter 4.x，Hadoop 2.7

docker run -it --rm -p 8888:8888 jupyter/pyspark-notebook

Jupyter Notebook Python, Spark, Mesos Stack

附注，

1 jupyter使用配置文件，而ipython使用配置文件。我相信如果你想在本地运行spark独立。看看Dockerfile并找出它的神奇之处。

2

中的

https://github.com/jupyter/docker-stacks更多黄金

Pyspark与Jupyter整合

2 个答案: