我有一个4节点的火花簇。我在所有节点上安装了Anaconda 3.5,并且python安装位置已添加到所有节点的PATH中。但是,当我尝试运行pyspark应用程序时,看起来Anaconda没有正确拾取它并且它给我以下错误消息。
var sessionVar = HttpContext.Current.Session["SessionVar"];
驱动程序和工作人员的$ PATH指向Anaconda安装,但pyspark或....没有其他环境变量。
这里发生了什么?
P.S。我的群集正在运行RedHat。
答案 0 :(得分:1)
您是否设置了$PYSPARK_PYTHON
环境变量?您可以在运行pyspark时直接执行此操作,但可能更容易填写$SPARK_CONF_DIR/spark-env.sh
中的所有环境变量。例如,这里是我的:
$ cat $SPARK_CONF_DIR/spark-env.sh
PYSPARK_PYTHON=python
PYSPARK_DRIVER_PYTHON=ipython
有关完整的设置列表,请参阅the documentation。