通常,我们在spark-submit
中添加参数以上传jar和venv(例如,通过conda pack
进行zip压缩),在这种情况下,我们只是
spark-submit --jar xx.jar --archive xx.tar.gz#xx
我们可以在日志uploading xxx to HDFS ...
如果罐子或静脉口很大,这将花费大量时间,并且每次我们提交作业时,时间就是成本
假设纱线束已准备好进行常规作业(换句话说,每个作业都使用相同的jar和venv),在提交任何作业之前,是否有任何方法可以预先准备jar和venv。
如果是,怎么办?放在哪里?时间主要花在哪里?如果我使用hdfs路径(例如--jar hdfs://.../xx.jar
),是否可以节省大多数时间?