我是否需要使用Spark with YARN来实现HDFS的NODE LOCAL数据位置?
如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中,那么Spark如何知道数据位于节点本地?
答案 0 :(得分:2)
YARN是资源经理。它涉及内存和进程,而不涉及HDFS或数据位置的工作。
由于Spark可以读取HDFS源,以及名称节点和datanodes负责YARN以外的所有HDFS块数据管理,我相信答案是否定的,你不需要YARN。但是你已经有了HDFS,这意味着你有Hadoop,为什么不利用将Spark整合到YARN中?