我在这条路径/home/mymachine/spark-2.1.0-bin-hadoop2.7
上安装了Apache Spark,因此我必须转到位于此目录下的python目录才能使用spark或者我可以在库的帮助下在python目录外使用它称为findspark,但似乎我必须像这样始终启动这个库:
import findspark
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7")
每次我想使用findspark
,这不是很有效。无论如何都要永久地启动这个库吗?
在here它提到需要在.bash_profile上设置一个变量SPARK_HOME
并且我做了,但没有运气。
答案 0 :(得分:0)
将以下变量添加到.bashrc文件
export SPARK_HOME=/path/2/spark/folder
export PATH=$SPARK_HOME/bin:$PATH
然后source .bashrc
如果你希望用jupyter笔记本运行到pyspark,请将这些变量添加到.bashrc
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
再次source .bashrc
现在,如果你从shell运行pyspark
,它将启动jupyter笔记本服务器,pyspark将在python内核上运行。