我正在尝试使用自定义虚拟环境[SPARK-13587]运行spark-submit以运行pyspark任务,但没有成功。我正在使用Hortonworks 3.0,Hadoop和YARN 3.1,pyhton 2.7和kerberos。我已经在所有节点上安装了virtualenv并创建了我的主文件夹。我关注了this tutorial,但遇到了以下错误:
原因:java.lang.RuntimeException:无法运行命令:virtualenv_application_1559224307694_0022_0 / bin / python -m pip --cache-dir / home / darguelles install -r requeriments.txt
怎么了? yarn在哪里创建文件夹virtualenv_application_1559224307694_0022_0
?
spark-submit --master yarn --deploy-mode client \
--conf spark.pyspark.virtualenv.enabled=true \
--conf spark.pyspark.virtualenv.type=native \
--conf spark.pyspark.virtualenv.requirements=/home/darguelles/requeriments.txt \
--conf spark.pyspark.virtualenv.bin.path=/usr/bin/virtualenv \
--conf spark.pyspark.python=/usr/bin/python \
spark_virtualenv.py
spark_virtualenv.py
from pyspark import SparkContext
if __name__ == "__main__":
sc = SparkContext(appName="Simple App")
import numpy as np
sc.parallelize(range(1,10)).map(lambda x : np.__version__).collect()
requeriments.txt:
numpy==1.15.3
pandas==0.24.2