应用错误收集

如果我已经安装了Hadoop，我应该下载Apache Spark with Hadoop还是WITHOUT Hadoop？

时间：2018-01-30 05:09:04

标签： apache-spark hadoop hadoop3

我已经安装了awk '/Iter = 10/{flag=1; next} flag && /^Folder/{print $NF; flag=0;}' file。我现在应该安装 with-hadoop 或 without-hadoop 版本的Apache Spark from this page吗？

我正在关注this guide以开始使用Apache Spark 它说

下载最新版本的Apache Spark（预建根据您的Hadoop版本）来自此链接：...

但我很困惑。如果我已经在我的机器上运行了Hadoop实例，然后我下载，安装并运行Apache-Spark-WITH-Hadoop，那么它是否会启动另一个Hadoop实例？

2 个答案:

答案 0 :(得分：4)

首先，据我所知，Spark尚未支持Hadoop 3。您可以通过“您的Hadoop版本”没有可供下载的选项来注意到这一点。

您可以尝试在spark-env.sh中设置HADOOP_CONF_DIR和HADOOP_HOME，无论您下载哪个。

如果您已经拥有Hadoop，则应始终下载不带Hadoop的版本。

它不会启动Hadoop的另一个额外实例吗？

没有。您仍然需要显式配置和启动该版本的Hadoop。

我认为Spark选项已经配置为使用包含的Hadoop

答案 1 :(得分：3)

这是@ cricket_007的回答。

如果您安装了Hadoop，请不要使用Hadoop下载spark，但是，由于任何版本的spark仍然不支持您的Hadoop版本，因此您需要下载带有Hadoop的版本。虽然，您需要在计算机上配置捆绑的Hadoop版本，以便运行Spark。这意味着您在Hadoop 3上的所有数据都将 LOST 。因此，如果您需要此数据，请在开始降级/重新配置之前备份数据。由于某些环境变量，我认为您不能在同一系统上托管2个Hadoop实例。