我使用我的jar文件通过spark-submit在纱线群集模式上部署作业。我每次使用'相同的jar文件提交时都会部署该作业,但每次提交时都会上传到hadoop。我认为每次上传同一个jar都是不必要的例行程序。有没有办法上传一次并用罐子做纱线工作?
答案 0 :(得分:2)
你可以将你的火花罐放入hdfs,然后使用--master yarn-cluster模式,这样你就可以节省每次将jar上传到hdfs所需的时间。
其他替代方法是将jar放在spark classpath中的每个节点上,这有以下缺点: