Question

我在这条路径/home/mymachine/spark-2.1.0-bin-hadoop2.7上安装了Apache Spark，因此我必须转到位于此目录下的python目录才能使用spark或者我可以在库的帮助下在python目录外使用它称为findspark，但似乎我必须像这样始终启动这个库：

import findspark
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7")

每次我想使用findspark，这不是很有效。无论如何都要永久地启动这个库吗？

在here它提到需要在.bash_profile上设置一个变量SPARK_HOME并且我做了，但没有运气。

Answer 1

将以下变量添加到.bashrc文件

export SPARK_HOME=/path/2/spark/folder
export PATH=$SPARK_HOME/bin:$PATH

然后source .bashrc
如果你希望用jupyter笔记本运行到pyspark，请将这些变量添加到.bashrc

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

再次source .bashrc
现在，如果你从shell运行pyspark，它将启动jupyter笔记本服务器，pyspark将在python内核上运行。

永久设置findspark.init（）

1 个答案: