应用错误收集

从您的问题here，我显然猜测您对HDFS和YARN的理解不正确。

YARN是一个通用的作业调度框架，HDFS是一个存储框架。

坚果shell中的YARN有一个master（资源管理器）和worker（节点管理器），

资源管理器在worker上创建容器以执行MapReduce作业，激活作业等。

另一方面，HDFS有一个主（名称节点）和工作人员（数据节点）来保存和检索文件。

您不需要YARN与HDFS进行通信，它是一个独立的实体。

在生产环境中，HDFS工作者（数据节点）和YARN工作者（节点管理器）安装在一台机器中，以便处理框架可以使用来自最近的本地数据节点（数据位置）的数据。

在群集模式下在YARN群集上使用spark意味着YARN群集中的一个工作节点充当客户端以提交spark作业。

因此，使用hdfs：//显然会使spark作业受益，因为spark执行器会从最近的数据节点读取数据。

YARN和HDFS配置将从客户端计算机上的HADOOP_CONF_DIR读取（可以是客户端模式下的本地计算机，也可以是群集模式下的其中一个工作节点）。