我是否需要使用Spark with YARN来实现HDFS的NODE LOCAL数据位置?

时间:2016-10-18 06:59:54

标签: hadoop apache-spark hdfs

我是否需要使用Spark with YARN来实现HDFS的NODE LOCAL数据位置?
如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中,那么Spark如何知道数据位于节点本地?

1 个答案:

答案 0 :(得分:2)

YARN是资源经理。它涉及内存和进程,而不涉及HDFS或数据位置的工作。

由于Spark可以读取HDFS源,以及名称节点和datanodes负责YARN以外的所有HDFS块数据管理,我相信答案是否定的,你不需要YARN。但是你已经有了HDFS,这意味着你有Hadoop,为什么不利用将Spark整合到YARN中?