我是集群计算的新手,我正在尝试在Spark中建立一个最小的2节点集群。 我仍然有点困惑:我是否必须首先设置一个完整的Hadoop安装?Spark内部包含一个包含的Hadoop版本吗?
我找到的关于Spark的东西并没有真正明白这一点。我知道Spark是Hadoop的扩展,而不是替换它,但是如果它需要一个独立运行的Hadoop系统,我就不会清楚了。
我需要一个HDFS,它是否足以只使用Hadoop的文件系统部分?
有人能指出这对我来说可能是显而易见的事吗?
答案 0 :(得分:4)
Apache Spark独立于Hadoop。 Spark允许您使用不同的数据源(包括HDFS),并且能够在独立群集中运行,或者使用现有的资源管理框架(例如,YARN,Mesos)。
因此,如果您只对Spark感兴趣,则无需安装Hadoop。