收到"没有这样的文件或目录"在pyspark2.3中关于PYSPARK_PYTHON python

时间:2018-05-18 21:26:44

标签: apache-spark pyspark emr

我们在运行Spark 2.3.0的EMR上启动了一个新的Spark集群,并且正在尝试运行与运行Spark 2.2.0的集群相同的命令,但是我们正在获得追溯:{{ 1}}。

我们正在运行的命令是:

java.io.IOException: Cannot run program "./venv/bin/python": error=2, No such file or directory

我们确保virtualenv可重定位,并在spark submit命令中尝试了PYSPARK_PYTHON=./venv/bin/python PYSPARK_DRIVER_PYTHON=python $SPARK_HOME/bin/spark-submit --py-files=dist/project_main-1.0.0- py2.7.egg --master=yarn --deploy-mode=client --archives=venv.zip#venv - -packages org.apache.derby:derbytools:10.14.1.0,org.apache.derby:derbyclient:10.14.1.0,com.github.databricks:spark-avro:204864b6cf,com.databricks:spark-redshift_2.11:3.0.0-preview1,com.databricks:spark-csv_2.11:1.5.0,com.amazon.redshift:redshift-jdbc42:1.2.12.1017 --repositories https://jitpack.io,http://redshift-maven-repository.s3-website-us-east-1.amazonaws.com/release --executor-memory 4g project_main/main.py PYSPARK_PYTHON--archives的不同组合。我们尝试省略--files,但它没有在virtualenv中运行,并且缺少我们的包和库。

PYSPARK_PYTHONPYSPARK_PYTHONPYSPARK_DRIVER_PYTHON的行为是否已从2.2更改为2.3?

0 个答案:

没有答案