标签: apache-spark pyspark
我有一个由主节点和工作节点组成的EMR集群。 Yarn是集群管理器。 我使用rsync将python代码推送到主服务器,然后通过ssh登录到主服务器并调用spark-submit。 这是什么模式?
根据《火花:权威指南》一书 在集群模式下,集群管理器在集群内的工作程序节点上启动驱动程序进程。
在客户端模式下,Spark驱动程序保留在提交应用程序的客户端计算机上。
在我的情况下,驱动程序进程在群集内的主节点上启动,并且主节点是客户端计算机。 那我的设置是以客户端模式还是集群模式运行的?