为PySpark捆绑Python3包会导致导入丢失

时间:2018-02-13 15:31:11

标签: python python-3.x numpy apache-spark pyspark

我试图运行依赖于某些python3库的PySpark作业。 我知道我可以在Spark Cluster上安装这些库,但由于我重新使用群集进行多个作业,我想将所有依赖项捆绑在一起并通过--py-files将它们传递给每个作业。指示。

为此,我使用:

pip3 install -r requirements.txt --target ./build/dependencies
cd ./build/dependencies
zip -qrm . ../dependencies.zip

有效地从所需的包中删除所有代码以在根级别使用。

enter image description here

在我的main.py我可以导入依赖项

if os.path.exists('dependencies.zip'):
    sys.path.insert(0, 'dependencies.zip')

并将.zip添加到我的Spark上下文

sc.addPyFile('dependencies.zip')

到目前为止一切顺利。

但由于某种原因,这将在Spark Cluster上的某种依赖地狱中下载

例如跑步

spark-submit --py-files dependencies.zip main.py

main.py(或类)中我想使用熊猫的地方。它将触发此错误的代码:

  

追踪(最近一次呼叫最后一次):

     

File" /Users/tomlous/Development/Python/enrichers/build/main.py" ;,第53行,在       job_module = importlib.import_module(' spark.jobs。%s'%args.job_name)   ...

     

文件"",第978行,_gcd_import

     

文件"",第961行,在_find_and_load

中      

文件"",第950行,_find_and_load_unlocked

     

文件"",第646行,_load_unlocked

     

文件"",第616行,_load_backward_compatible

     

文件" dependencies.zip/spark/jobs/classify_existence.py",第9行,

     

文件" dependencies.zip/enrich/existence.py",第3行,

     

文件" dependencies.zip/pandas/ init .py",第19行,

     

ImportError:缺少必需的依赖项[' numpy']

看着熊猫__init__.py我看到__import__(numpy)

之类的东西

所以我认为没有加载numpy。

但是,如果我将我的代码更改为显式调用numpy函数,它实际上会找到numpy,但不会发现它的某些依赖

import numpy as np
a = np.array([1, 2, 3])

代码返回

  

追踪(最近一次呼叫最后一次):

     

文件" dependencies.zip/numpy/core/ init .py",第16行,

     

ImportError:无法导入名称'多阵列'

所以我的问题是:

我应该如何将python3库与我的spark作业捆绑在一起,以便我不必在Spark集群上安装所有可能的库?

1 个答案:

答案 0 :(得分:1)

更新:有一个内聚的回购,其中包含一个示例项目,该项目非常出色。您应该看一下,尤其是如果下面的示例对您不起作用时。仓库在这里:https://github.com/massmutual/sample-pyspark-application 并包括在YARN上运行的以下示例: https://github.com/massmutual/sample-pyspark-application/blob/master/setup-and-submit.sh 希望您首先导出几个环境变量。 (我提供的值特定于EMR,因此您的值可能会有所不同。)

export HADOOP_CONF_DIR="/etc/hadoop/conf"
export PYTHON="/usr/bin/python3"
export SPARK_HOME="/usr/lib/spark"
export PATH="$SPARK_HOME/bin:$PATH"

如此处所述:I can't seem to get --py-files on Spark to work 有必要使用诸如virtualenv之类的东西(或者说conda可能起作用),以避免遇到与Python包(例如Numpy)的C库的编译相关的问题,这些问题依赖于基础硬件体系结构而无法成功移植到由于依赖关系和/或任务节点中的硬链接可能具有与主节点实例不同的硬件,因此群集中的其他计算机也可能没有。

--archives和--py-files之间的一些区别在这里讨论:Shipping and using virtualenv in a pyspark job

我建议将--archives与virtualenv配合使用,以提供包含程序包依赖项的压缩文件,以避免我上面提到的某些问题。

例如,从Amazon Elastic Map Reduce(EMR)集群中,当ssh进入主实例时,我能够成功地使用spark-submit来从虚拟环境中执行测试python脚本,如下所示:

pip-3.4 freeze | egrep -v sagemaker > requirements.txt
# Above line is just in case you want to port installed packages across environments.
virtualenv -p python3 spark_env3
virtualenv -p python3 --relocatable spark_env3
source spark_env3/bin/activate
sudo pip-3.4 install -U pandas boto3 findspark jaydebeapi
# Note that the above libraries weren't required for the test script, but I'm showing how you can add additional dependencies if needed.
sudo pip-3.4 install -r requirements.txt
# The above line is just to show how you can load from a requirements file if needed.
cd spark_env3
# We must cd into the directory before we zip it for Spark to find the resources. 
zip -r ../spark_env3_inside.zip *
# Be sure to cd back out after building the zip file. 
cd ..

PYSPARK_PYTHON=./spark_env3/bin/python3 spark-submit \ 
  --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./spark_env3/bin/python3 \
  --master yarn-cluster \
  --archives /home/hadoop/spark_env3_inside.zip#spark_env3 \
  test_spark.py

请注意,上面最后一行结尾处的主题标签不是注释。这是执行火花提交的指令,如下所述:Upload zip file using --archives option of spark-submit on yarn

我正在运行的测试脚本的来源来自这篇文章,该文章讨论了使用conda而不是virtualenv来运行pyspark作业:http://quasiben.github.io/blog/2016/4/15/conda-spark/

并包含test_spark.py脚本的以下代码:

# test_spark.py
import os
import sys
from pyspark import SparkContext
from pyspark import SparkConf

conf = SparkConf()
conf.setAppName("get-hosts")

sc = SparkContext(conf=conf)

def noop(x):
    import socket
    import sys
    return socket.gethostname() + ' '.join(sys.path) + ' '.join(os.environ)

rdd = sc.parallelize(range(1000), 100)
hosts = rdd.map(noop).distinct().collect()
print(hosts)

如果您想要一些有关使用virtualenv执行pyspark作业的背景信息(如@Mariusz所述),此博客文章中有一个有用的示例:https://henning.kropponline.de/2016/09/17/running-pyspark-with-virtualenv/(尽管它不能解释某些微妙之处)我通过提供的其他链接进行了澄清)。

此处提供的答案中还有一个示例:Elephas not loaded in PySpark: No module named elephas.spark_model

这里还有另一个示例:https://community.hortonworks.com/articles/104947/using-virtualenv-with-pyspark.html