如果我已经安装了Hadoop,我应该下载Apache Spark with Hadoop还是WITHOUT Hadoop?

时间:2018-01-30 05:09:04

标签: apache-spark hadoop hadoop3

我已经安装了awk '/Iter = 10/{flag=1; next} flag && /^Folder/{print $NF; flag=0;}' file 。我现在应该安装 with-hadoop without-hadoop 版本的Apache Spark from this page吗?

我正在关注this guide以开始使用Apache Spark 它说

  

下载最新版本的Apache Spark(预建根据   您的Hadoop版本)来自此链接:...

但我很困惑。如果我已经在我的机器上运行了Hadoop实例,然后我下载,安装并运行Apache-Spark-WITH-Hadoop,那么它是否会启动另一个Hadoop实例?

2 个答案:

答案 0 :(得分:4)

首先,据我所知,Spark尚未支持Hadoop 3。您可以通过“您的Hadoop版本”没有可供下载的选项来注意到这一点。

您可以尝试在spark-env.sh中设置HADOOP_CONF_DIRHADOOP_HOME,无论您下载哪个。

如果您已经拥有Hadoop,则应始终下载不带Hadoop的版本。

  

它不会启动Hadoop的另一个额外实例吗?

没有。您仍然需要显式配置和启动该版本的Hadoop。

我认为Spark选项已经配置为使用包含的Hadoop

答案 1 :(得分:3)

这是@ cricket_007的回答。

如果您安装了Hadoop,请不要使用Hadoop下载spark,但是,由于任何版本的spark仍然不支持您的Hadoop版本,因此您需要下载带有Hadoop的版本。虽然,您需要在计算机上配置捆绑的Hadoop版本,以便运行Spark。这意味着您在Hadoop 3上的所有数据都将 LOST 。因此,如果您需要此数据,请在开始降级/重新配置之前备份数据。由于某些环境变量,我认为您不能在同一系统上托管2个Hadoop实例。