我安装了anaconda,我也下载了Spark 1.6.2。我正在使用此答案中的以下说明为Jupyter enter link description here
配置spark我已将spark目录下载并解压缩为
~/spark
现在,当我进入此目录并进入bin时,我会看到以下内容
SFOM00618927A:spark $ cd bin
SFOM00618927A:bin $ ls
beeline pyspark run-example.cmd spark-class2.cmd spark-sql sparkR
beeline.cmd pyspark.cmd run-example2.cmd spark-shell spark-submit sparkR.cmd
load-spark-env.cmd pyspark2.cmd spark-class spark-shell.cmd spark-submit.cmd sparkR2.cmd
load-spark-env.sh run-example spark-class.cmd spark-shell2.cmd spark-submit2.cmd
我还添加了上面回答中提到的环境变量.bash_profile和.profile
现在在spark / bin目录中我要检查的第一件事是pyspark命令是否首先在shell上运行。
所以我在做了cd spark / bin
后这样做了SFOM00618927A:bin $ pyspark
-bash: pyspark: command not found
根据我可以做的所有步骤之后的答案
pyspark
在任何目录的终端中它应该启动一个带有spark引擎的jupyter笔记本。但即使是shell中的pyspark也无法忘记让它在juypter笔记本上运行
请告知这里出了什么问题。
编辑:
我做了
open .profile
在主目录中,这是存储在路径中的内容。
export PATH=/Users/854319/anaconda/bin:/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/Library/TeX/texbin:/Users/854319/spark/bin
export PYSPARK_DRIVER_PYTHON=ipython
export PYSPARK_DRIVER_PYTHON_OPTS='notebook' pyspark
答案 0 :(得分:4)
1-您需要为shell设置JAVA_HOME
和spark路径才能找到它们。在.profile
中设置后,您可能需要
source ~/.profile
激活当前会话中的设置。根据您的评论,我发现您已经遇到JAVA_HOME
问题。
请注意,如果您有.bash_profile
或.bash_login
,.profile
将无法按照here
2-当你在spark/bin
时,你需要运行
./pyspark
告诉shell目标是在当前文件夹中。
答案 1 :(得分:1)
这是我的环境变化,希望它会对你有所帮助:
http://localhost:8080/h2-console
^^如果您不希望笔记本电脑启动,请删除Pyspark_driver_python_opts选项,否则您可以将其全部保留,并在需要时在命令行中使用它。
我在另一行中有anaconda vars附加到PATH。
答案 2 :(得分:0)
对于在MacOS Catalina期间或之后来到这里的任何人,请确保您在 zshrc 中而非在 bash 中建立/获取变量。
$ nano ~/.zshrc
# Set Spark Path
export SPARK_HOME="YOUR_PATH/spark-3.0.1-bin-hadoop2.7"
export PATH="$SPARK_HOME/bin:$PATH"
# Set pyspark + jupyter commands
export PYSPARK_SUBMIT_ARGS="pyspark-shell"
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='lab' pyspark
$ source ~/.zshrc
$ pyspark
#通过初始化PySpark自动打开Jupyter Lab。