Question

我正在努力了解Spark如何准备执行程序的细节。为了做到这一点，我尝试调试org.apache.spark.executor.CoarseGrainedExecutorBackend并调用

Thread.currentThread().getContextClassLoader.getResource("")

它指出以下目录：

/hadoop/yarn/local/usercache/_MY_USER_NAME_/appcache/application_1507907717252_15771/container_1507907717252_15771_01_000002/

查看目录，我找到了以下文件：

default_container_executor_session.sh
default_container_executor.sh
launch_container.sh
__spark_conf__
__spark_libs__

问题是谁将文件传递给每个执行程序，然后只使用适当的类路径运行CoarseGrainedExecutorBackend？什么是剧本？它们都是YARN自动生成的吗？

我看了org.apache.spark.deploy.SparkSubmit，但内心没有找到任何有用的东西。

Answer 1

哎呀......你要求提供很多关于Spark在请求资源时如何与集群管理器通信的细节。让我给你一些信息。继续问你是否想要更多...

您正在使用Hadoop YARN作为Spark应用程序的集群管理器。让我们只专注于这个特定的集群管理器（因为还有其他Spark支持像Apache Mesos，Spark Standalone，DC / OS以及很快Kubernetes，他们有自己的方式来处理Spark部署）。

默认情况下，在使用spark-submit提交Spark应用程序时，Spark应用程序（即它实际使用的SparkContext）请求三个YARN容器。一个容器用于Spark应用程序的ApplicationMaster，它知道如何与YARN通信并为两个Spark执行程序请求另外两个YARN容器。

您可以查看YARN官方文档的Apache Hadoop YARN和Hadoop: Writing YARN Applications，深入了解YARN内部。

在提交Spark应用程序时，Spark的ApplicationMaster使用YARN“协议”提交给YARN，该协议要求对第一个YARN容器（容器0 ）的请求使用{{ 1}}包含所有必要的启动详细信息（请参阅Client.createContainerLaunchContext）。