使用hdfs://与spark中的纱线之间的区别

时间:2016-03-28 08:14:39

标签: apache-spark hdfs yarn

使用hdfs://和spark中的yarn来保存和加载具有群集模式的保存文件有什么区别?

1 个答案:

答案 0 :(得分:2)

从您的问题here,我显然猜测您对HDFS和YARN的理解不正确。

YARN是一个通用的作业调度框架,HDFS是一个存储框架。

坚果shell中的YARN有一个master(资源管理器)和worker(节点管理器),

资源管理器在worker上创建容器以执行MapReduce作业,激活作业等。

另一方面,HDFS有一个主(名称节点)和工作人员(数据节点)来保存和检索文件。

您不需要YARN与HDFS进行通信,它是一个独立的实体。

在生产环境中,HDFS工作者(数据节点)和YARN工作者(节点管理器)安装在一台机器中,以便处理框架可以使用来自最近的本地数据节点(数据位置)的数据。

在群集模式下在YARN群集上使用spark意味着YARN群集中的一个工作节点充当客户端以提交spark作业。

因此,使用hdfs://显然会使spark作业受益,因为spark执行器会从最近的数据节点读取数据。

YARN和HDFS配置将从客户端计算机上的HADOOP_CONF_DIR读取(可以是客户端模式下的本地计算机,也可以是群集模式下的其中一个工作节点)。