Pyspark命令无法识别

时间:2016-08-05 22:58:38

标签: python apache-spark pyspark

我安装了anaconda,我也下载了Spark 1.6.2。我正在使用此答案中的以下说明为Jupyter enter link description here

配置spark

我已将spark目录下载并解压缩为

~/spark

现在,当我进入此目录并进入bin时,我会看到以下内容

SFOM00618927A:spark $ cd bin
SFOM00618927A:bin $ ls
beeline         pyspark         run-example.cmd     spark-class2.cmd    spark-sql       sparkR
beeline.cmd     pyspark.cmd     run-example2.cmd    spark-shell     spark-submit        sparkR.cmd
load-spark-env.cmd  pyspark2.cmd        spark-class     spark-shell.cmd     spark-submit.cmd    sparkR2.cmd
load-spark-env.sh   run-example     spark-class.cmd     spark-shell2.cmd    spark-submit2.cmd

我还添加了上面回答中提到的环境变量.bash_profile和.profile

现在在spark / bin目录中我要检查的第一件事是pyspark命令是否首先在shell上运行。

所以我在做了cd spark / bin

后这样做了
SFOM00618927A:bin $ pyspark
-bash: pyspark: command not found

根据我可以做的所有步骤之后的答案

pyspark 

在任何目录的终端中它应该启动一个带有spark引擎的jupyter笔记本。但即使是shell中的pyspark也无法忘记让它在juypter笔记本上运行

请告知这里出了什么问题。

编辑:

我做了

open .profile 

在主目录中,这是存储在路径中的内容。

export PATH=/Users/854319/anaconda/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/Library/TeX/texbin:/Users/854319/spark/bin
export PYSPARK_DRIVER_PYTHON=ipython
export PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark

3 个答案:

答案 0 :(得分:4)

1-您需要为shell设置JAVA_HOME和spark路径才能找到它们。在.profile中设置后,您可能需要

source ~/.profile

激活当前会话中的设置。根据您的评论,我发现您已经遇到JAVA_HOME问题。

请注意,如果您有.bash_profile.bash_login.profile将无法按照here

的说明运作

2-当你在spark/bin时,你需要运行

./pyspark

告诉shell目标是在当前文件夹中。

答案 1 :(得分:1)

这是我的环境变化,希望它会对你有所帮助:

http://localhost:8080/h2-console

^^如果您不希望笔记本电脑启动,请删除Pyspark_driver_python_opts选项,否则您可以将其全部保留,并在需要时在命令行中使用它。

我在另一行中有anaconda vars附加到PATH。

答案 2 :(得分:0)

对于在MacOS Catalina期间或之后来到这里的任何人,请确保您在 zshrc 中而非在 bash 中建立/获取变量。

$ nano ~/.zshrc

# Set Spark Path
export SPARK_HOME="YOUR_PATH/spark-3.0.1-bin-hadoop2.7"
export PATH="$SPARK_HOME/bin:$PATH"

# Set pyspark + jupyter commands
export PYSPARK_SUBMIT_ARGS="pyspark-shell"
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='lab' pyspark

$ source ~/.zshrc

$ pyspark#通过初始化PySpark自动打开Jupyter Lab。