Question

我安装了anaconda，我也下载了Spark 1.6.2。我正在使用此答案中的以下说明为Jupyter enter link description here

配置spark

我已将spark目录下载并解压缩为

~/spark

现在，当我进入此目录并进入bin时，我会看到以下内容

SFOM00618927A:spark $ cd bin
SFOM00618927A:bin $ ls
beeline         pyspark         run-example.cmd     spark-class2.cmd    spark-sql       sparkR
beeline.cmd     pyspark.cmd     run-example2.cmd    spark-shell     spark-submit        sparkR.cmd
load-spark-env.cmd  pyspark2.cmd        spark-class     spark-shell.cmd     spark-submit.cmd    sparkR2.cmd
load-spark-env.sh   run-example     spark-class.cmd     spark-shell2.cmd    spark-submit2.cmd

我还添加了上面回答中提到的环境变量.bash_profile和.profile

现在在spark / bin目录中我要检查的第一件事是pyspark命令是否首先在shell上运行。

所以我在做了cd spark / bin

后这样做了

SFOM00618927A:bin $ pyspark
-bash: pyspark: command not found

根据我可以做的所有步骤之后的答案

pyspark

在任何目录的终端中它应该启动一个带有spark引擎的jupyter笔记本。但即使是shell中的pyspark也无法忘记让它在juypter笔记本上运行

请告知这里出了什么问题。

编辑：

我做了

open .profile

在主目录中，这是存储在路径中的内容。

export PATH=/Users/854319/anaconda/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/Library/TeX/texbin:/Users/854319/spark/bin
export PYSPARK_DRIVER_PYTHON=ipython
export PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark

Answer 1

1-您需要为shell设置JAVA_HOME和spark路径才能找到它们。在.profile中设置后，您可能需要

source ~/.profile

激活当前会话中的设置。根据您的评论，我发现您已经遇到JAVA_HOME问题。

请注意，如果您有.bash_profile或.bash_login，.profile将无法按照here

的说明运作

2-当你在spark/bin时，你需要运行

./pyspark

告诉shell目标是在当前文件夹中。

Answer 2

这是我的环境变化，希望它会对你有所帮助：

http://localhost:8080/h2-console

^^如果您不希望笔记本电脑启动，请删除Pyspark_driver_python_opts选项，否则您可以将其全部保留，并在需要时在命令行中使用它。

我在另一行中有anaconda vars附加到PATH。

Answer 3

对于在MacOS Catalina期间或之后来到这里的任何人，请确保您在 zshrc 中而非在 bash 中建立/获取变量。

$ nano ~/.zshrc

# Set Spark Path
export SPARK_HOME="YOUR_PATH/spark-3.0.1-bin-hadoop2.7"
export PATH="$SPARK_HOME/bin:$PATH"

# Set pyspark + jupyter commands
export PYSPARK_SUBMIT_ARGS="pyspark-shell"
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='lab' pyspark

$ source ~/.zshrc

$ pyspark＃通过初始化PySpark自动打开Jupyter Lab。

Pyspark命令无法识别

3 个答案: