我有一个八节点的YARN群集。我从一个单节点配置开始,所有工作都在该节点上进行。现在,我正在尝试为Python设置Apache Spark,但是在工作程序节点上配置Python ENV时遇到了问题。我认为问题与PYSPARK_DRIVER_PYTHON env有关。我用来提交作业的命令是:
spark-submit --master yarn --deploy-mode cluster spam_detection.py
以下是我的spark-env.sh中的设置
if [ -z "${PYSPARK_PYTHON}" ]; then
export PYSPARK_PYTHON=/usr/bin/python3
fi
if [ -z "${PYSPARK_DRIVER_PYTHON}" ]; then
export PYSPARK_DRIVER_PYTHON=ipython3
fi
Ipython3安装在/home/user/.local/bin
上,所有节点上都可用。
我在日志中得到的错误是“无法运行程序“ ipython3”:error = 2,没有这样的文件或目录”。但是,我可以确认在所有节点上都安装了ipython3以及所有其他依赖项,例如numpy,scipye.t.c。
我也尝试使用PYSPARK_DRIVER_PYTHON的完整路径,但效果不佳。我也尝试将以下导出语句添加到我的/ etc / environment中,但是由于出现相同的消息而失败。
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=ipython3