应用错误收集

Hadoop的HDFS与Spark

时间：2015-03-31 12:24:05

标签： hadoop apache-spark

我是集群计算的新手，我正在尝试在Spark中建立一个最小的2节点集群。我仍然有点困惑：我是否必须首先设置一个完整的Hadoop安装？Spark内部包含一个包含的Hadoop版本吗？

我找到的关于Spark的东西并没有真正明白这一点。我知道Spark是Hadoop的扩展，而不是替换它，但是如果它需要一个独立运行的Hadoop系统，我就不会清楚了。

我需要一个HDFS，它是否足以只使用Hadoop的文件系统部分？

有人能指出这对我来说可能是显而易见的事吗？

1 个答案:

答案 0 :(得分：4)

Apache Spark独立于Hadoop。 Spark允许您使用不同的数据源（包括HDFS），并且能够在独立群集中运行，或者使用现有的资源管理框架（例如，YARN，Mesos）。

因此，如果您只对Spark感兴趣，则无需安装Hadoop。