我们在运行Spark 2.3.0的EMR上启动了一个新的Spark集群,并且正在尝试运行与运行Spark 2.2.0的集群相同的命令,但是我们正在获得追溯:{{ 1}}。
我们正在运行的命令是:
java.io.IOException: Cannot run program "./venv/bin/python": error=2, No such file or directory
我们确保virtualenv可重定位,并在spark submit命令中尝试了PYSPARK_PYTHON=./venv/bin/python PYSPARK_DRIVER_PYTHON=python
$SPARK_HOME/bin/spark-submit --py-files=dist/project_main-1.0.0-
py2.7.egg --master=yarn --deploy-mode=client --archives=venv.zip#venv -
-packages org.apache.derby:derbytools:10.14.1.0,org.apache.derby:derbyclient:10.14.1.0,com.github.databricks:spark-avro:204864b6cf,com.databricks:spark-redshift_2.11:3.0.0-preview1,com.databricks:spark-csv_2.11:1.5.0,com.amazon.redshift:redshift-jdbc42:1.2.12.1017 --repositories https://jitpack.io,http://redshift-maven-repository.s3-website-us-east-1.amazonaws.com/release --executor-memory 4g project_main/main.py
,PYSPARK_PYTHON
和--archives
的不同组合。我们尝试省略--files
,但它没有在virtualenv中运行,并且缺少我们的包和库。
PYSPARK_PYTHON
或PYSPARK_PYTHON
或PYSPARK_DRIVER_PYTHON
的行为是否已从2.2更改为2.3?