运行pyspark时出错

时间:2017-10-04 04:00:14

标签: pyspark jupyter

我试图通过终端运行pyspark。从我的终端,我运行snotebook,它将自动加载木星。之后,当我选择python3时,错误从终端出来。

  

[IPKernelApp]警告|处理PYTHONSTARTUP文件时出现未知错误   /Users/simon/spark-1.6.0-bin-hadoop2.6/python/pyspark/shell.py

这是我的.bash_profile设置:

export PATH="/Users/simon/anaconda/bin:$PATH"

export SPARK_HOME=~/spark-1.6.0-bin-hadoop2.6

export PATH=$PATH:$SPARK_HOME/bin

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

export PYSPARK_PYTHON=python3

alias snotebook='$SPARK_HOME/bin/pyspark'

如果您有任何想法,请告诉我,谢谢。

3 个答案:

答案 0 :(得分:1)

您需要在代码中添加以下行

PYSPARK_DRIVER_PYTHON=ipython

PYSPARK_DRIVER_PYTHON=ipython3

希望它会有所帮助。

答案 1 :(得分:0)

就我而言,我使用的是虚拟环境,却忘记了安装Jupyter,因此它使用的是$PATH中找到的某个版本。在环境中安装它可以解决此问题。

答案 2 :(得分:0)

Spark现在将PySpark包含在安装中,因此,除非确实需要,否则请删除PySpark库。

删除旧的Spark,安装最新版本。 安装(pip)findspark库。

在Jupiter中,导入并使用findspark:

import findspark
findspark.init()

Quick PySpark / Python 3 Check

import findspark

findspark.init()

from pyspark import SparkContext 

sc = SparkContext()

print(sc)

sc.stop()