应用错误收集

我是否需要使用Spark with YARN来实现HDFS的NODE LOCAL数据位置？

时间：2016-10-18 06:59:54

标签： hadoop apache-spark hdfs

我是否需要使用Spark with YARN来实现HDFS的NODE LOCAL数据位置？
如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中，那么Spark如何知道数据位于节点本地？

1 个答案:

答案 0 :(得分：2)

YARN是资源经理。它涉及内存和进程，而不涉及HDFS或数据位置的工作。

由于Spark可以读取HDFS源，以及名称节点和datanodes负责YARN以外的所有HDFS块数据管理，我相信答案是否定的，你不需要YARN。但是你已经有了HDFS，这意味着你有Hadoop，为什么不利用将Spark整合到YARN中？