应用错误收集

通常，我们在spark-submit中添加参数以上传jar和venv（例如，通过conda pack进行zip压缩），在这种情况下，我们只是

spark-submit --jar xx.jar --archive xx.tar.gz#xx

我们可以在日志uploading xxx to HDFS ...

中看到

如果罐子或静脉口很大，这将花费大量时间，并且每次我们提交作业时，时间就是成本

假设纱线束已准备好进行常规作业（换句话说，每个作业都使用相同的jar和venv），在提交任何作业之前，是否有任何方法可以预先准备jar和venv。

如果是，怎么办？放在哪里？时间主要花在哪里？如果我使用hdfs路径（例如--jar hdfs://.../xx.jar），是否可以节省大多数时间？