我已经在我的机器中安装了Anaconda(python 2.7版本)并启动了jupyter笔记本,其中包含“PYSPARK_DRIVER_PYTHON = jupyter”和PYSPARK_DRIVER_PYTHON_OPTS =“notebook”,我正在连接到jupyter笔记本但无法运行“print”命令。当我正在运行命令时,它将转到下一行,但不显示输出,并且打印不会以颜色突出显示。
我已经在我的windows机器(独立模式)中安装了pyspark并在命令提示符下运行,并且工作正常.....但我需要在jupyter笔记本(windows)中运行。任何人都可以帮助我吗?
答案 0 :(得分:1)
如果您已经正确设置了pyspark shell,那么这就是您在Windows上使用Jupyter设置Pyspark所需要做的所有事情。
添加2个新的环境变量,设置
PYSPARK_DRIVER_PYTHON
到jupyter PYSPARK_DRIVER_PYTHON_OPTS
到笔记本从CMD提示符处运行pyspark
而不是' jupyter notebook
'
这应该可以解决问题。
答案 1 :(得分:0)
有关最新设置,请查看他们的官方jupyter docker repo。
这是使用Spark 2.1.0的Jupyter 4.x,Hadoop 2.7
docker run -it --rm -p 8888:8888 jupyter/pyspark-notebook
Jupyter Notebook Python, Spark, Mesos Stack
附注,
1 jupyter使用配置文件,而ipython使用配置文件。我相信如果你想在本地运行spark独立。看看Dockerfile并找出它的神奇之处。
2 中的