永久设置findspark.init()

时间:2017-09-23 14:41:22

标签: python pyspark

我在这条路径/home/mymachine/spark-2.1.0-bin-hadoop2.7上安装了Apache Spark,因此我必须转到位于此目录下的python目录才能使用spark或者我可以在库的帮助下在python目录外使用它称为findspark,但似乎我必须像这样始终启动这个库:

import findspark
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7")

每次我想使用findspark,这不是很有效。无论如何都要永久地启动这个库吗?

here它提到需要在.bash_profile上设置一个变量SPARK_HOME并且我做了,但没有运气。

1 个答案:

答案 0 :(得分:0)

将以下变量添加到.bashrc文件

export SPARK_HOME=/path/2/spark/folder
export PATH=$SPARK_HOME/bin:$PATH

然后source .bashrc
如果你希望用jupyter笔记本运行到pyspark,请将这些变量添加到.bashrc

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

再次source .bashrc
现在,如果你从shell运行pyspark,它将启动jupyter笔记本服务器,pyspark将在python内核上运行。