我有一个运行pyspark应用程序的ec2集群,我在使用spark-submit
运行--py-files
的同时将压缩的python文件传递给了doe。
如果我们已经传递了文件,从站是否需要应用程序代码?
答案 0 :(得分:0)
否,从属物品不需要应用程序代码或zip文件。提交火花作业的驱动程序(主)仅需要zip文件和源代码(包含main方法)。客户提交火花作业时会发生以下情况:
stop()
方法时,集群管理器将终止所有执行程序并释放所有资源。整个执行由驱动程序和群集管理器管理。从站中的执行程序依赖于驱动程序来执行任务。因此,不需要将源代码或zip文件复制或传递给从属服务器。
这是spark如何工作的架构:
https://spark.apache.org/docs/latest/cluster-overview.html
https://www.dezyre.com/article/apache-spark-architecture-explained-in-detail/338