使用virtualenv运行pyspark任务

时间:2019-06-03 15:28:42

标签: apache-spark pyspark virtualenv yarn

我正在尝试使用自定义虚拟环境[SPARK-13587]运行spark-submit以运行pyspark任务,但没有成功。我正在使用Hortonworks 3.0,Hadoop和YARN 3.1,pyhton 2.7和kerberos。我已经在所有节点上安装了virtualenv并创建了我的主文件夹。我关注了this tutorial,但遇到了以下错误:

  

原因:java.lang.RuntimeException:无法运行命令:virtualenv_application_1559224307694_0022_0 / bin / python -m pip --cache-dir / home / darguelles install -r requeriments.txt

怎么了? yarn在哪里创建文件夹virtualenv_application_1559224307694_0022_0

spark-submit --master yarn --deploy-mode client \
    --conf spark.pyspark.virtualenv.enabled=true  \
    --conf spark.pyspark.virtualenv.type=native \
    --conf spark.pyspark.virtualenv.requirements=/home/darguelles/requeriments.txt \
    --conf spark.pyspark.virtualenv.bin.path=/usr/bin/virtualenv  \
    --conf spark.pyspark.python=/usr/bin/python \
    spark_virtualenv.py

spark_virtualenv.py

from pyspark import SparkContext
if __name__ == "__main__":
      sc = SparkContext(appName="Simple App")
      import numpy as np
      sc.parallelize(range(1,10)).map(lambda x : np.__version__).collect()

requeriments.txt:

numpy==1.15.3
pandas==0.24.2

0 个答案:

没有答案