尝试从包含到路径的zip导入python库时无法解析cfg文件

时间:2018-12-04 19:56:47

标签: python apache-spark kubernetes pyspark

我使用Spark 2.4.0 + K8s集群部署模式+ python 3.5。

我将所有库打包到zip存档中,并将其发送到AWS S3,然后附加到上下文

sc = pyspark.SparkContext(appName=args.job_name, environment=environment)

sc.addPyFile('s3a://.../libs.zip')
sc.addPyFile('s3a://.../code.zip')

导入有效,我可以导入任何包。但是,如果我导入软件包,则会从与软件包相关的文件夹中读取一些文件-我会收到错误消息:

NotADirectoryError: [Errno 20] Not a directory: '/var/data/spark-ce45d34b-8d2f-4fd0-b3d6-d53ecede8ef1/spark-6ce9d14f-3d90-4c3c-ba2d-9dd6ddf32457/userFiles-08e6e9ec-03fa-447d-930f-bf1bd520f55a/libs.zip/airflow/config_templates/default_airflow.cfg'

我该如何解决?

PS。使用sc.addFile('s3a:/..')并且解压缩不起作用,因为spark在集群模式下运行。

更新:

我已经通过将所需的所有软件包安装到我用于火花工人的Docker容器中来临时解决了这个问题。

0 个答案:

没有答案