如何在火花纱簇中准备(预安装)广口瓶和静脉

时间:2019-05-06 07:26:08

标签: apache-spark pyspark hdfs yarn

通常,我们在spark-submit中添加参数以上传jar和venv(例如,通过conda pack进行zip压缩),在这种情况下,我们只是

spark-submit --jar xx.jar --archive xx.tar.gz#xx

我们可以在日志uploading xxx to HDFS ...

中看到

如果罐子或静脉口很大,这将花费大量时间,并且每次我们提交作业时,时间就是成本

假设纱线束已准备好进行常规作业(换句话说,每个作业都使用相同的jar和venv),在提交任何作业之前,是否有任何方法可以预先准备jar和venv。

如果是,怎么办?放在哪里?时间主要花在哪里?如果我使用hdfs路径(例如--jar hdfs://.../xx.jar),是否可以节省大多数时间?

0 个答案:

没有答案
相关问题