Question

关于提交申请的Spark documentation说：

以客户端或群集模式连接到YARN群集，具体取决于--deploy-mode的值。将根据HADOOP_CONF_DIR或YARN_CONF_DIR变量找到群集位置。

我恐怕没有得到它。我发现HADOOP_CONF_DIR设置为/etc/hadoop，其中包含许多shell脚本和配置文件。

我应该在哪里找到群集位置？

Answer 1

HADOOP_CONF_DIR是包含Hadoop库用于各种Hadoop特定内容的配置文件的目录。我写了各种特定于Hadoop的东西，以强调这里与Spark无关。

更重要的是HADOOP_CONF_DIR也可以指向一个空目录（假定默认值）。

要回答您的问题，您可以使用yarn.resourcemanager.address在yarn-site.xml中定义群集位置。如果未找到yarn-site.xml，则可以在localhost上使用YARN群集。

我应该在哪里yarn-site.xml spark-submit使用它？

我曾经使用YARN_CONF_DIR指向yarn-site.xml的目录。

YARN_CONF_DIR=/tmp ./bin/spark-shell --master yarn