我已经安装了awk '/Iter = 10/{flag=1; next} flag && /^Folder/{print $NF; flag=0;}' file
。我现在应该安装 with-hadoop 或 without-hadoop 版本的Apache Spark from this page吗?
我正在关注this guide以开始使用Apache Spark 它说
下载最新版本的Apache Spark(预建根据 您的Hadoop版本)来自此链接:...
但我很困惑。如果我已经在我的机器上运行了Hadoop实例,然后我下载,安装并运行Apache-Spark-WITH-Hadoop,那么它是否会启动另一个Hadoop实例?
答案 0 :(得分:4)
首先,据我所知,Spark尚未支持Hadoop 3。您可以通过“您的Hadoop版本”没有可供下载的选项来注意到这一点。
您可以尝试在spark-env.sh中设置HADOOP_CONF_DIR
和HADOOP_HOME
,无论您下载哪个。
如果您已经拥有Hadoop,则应始终下载不带Hadoop的版本。
它不会启动Hadoop的另一个额外实例吗?
没有。您仍然需要显式配置和启动该版本的Hadoop。
我认为Spark选项已经配置为使用包含的Hadoop
答案 1 :(得分:3)
这是@ cricket_007的回答。
如果您安装了Hadoop,请不要使用Hadoop下载spark,但是,由于任何版本的spark仍然不支持您的Hadoop版本,因此您需要下载带有Hadoop的版本。虽然,您需要在计算机上配置捆绑的Hadoop版本,以便运行Spark。这意味着您在Hadoop 3上的所有数据都将 LOST 。因此,如果您需要此数据,请在开始降级/重新配置之前备份数据。由于某些环境变量,我认为您不能在同一系统上托管2个Hadoop实例。