在纱线簇上安装火花

时间:2016-06-10 22:03:29

标签: hadoop apache-spark vagrant yarn bigdata

我正在寻找有关如何在现有虚拟纱线群集上安装火花的指南。

我有一个由两个节点组成的纱线群,运行map-reduce工作,完美无缺。在日志中查找结果,一切正常。

现在我需要在vagrantfile中添加spark安装命令和配置文件。我找不到一个好的指南,有人可以给我一个很好的链接吗?

我将此指南用于纱线群

http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation

提前致谢!

1 个答案:

答案 0 :(得分:2)

我不了解流浪汉,但我已经在hadoop 2.6(在YARN后面的指南中)安装了Spark,我希望这会有所帮助。

在现有的hadoop上安装Spark非常简单,只需要在一台机器上安装即可。为此,您必须从it's official website下载为您的hadoop版本预先构建的版本(我猜您可以使用without hadoop版本,但您需要将其指向系统中hadoop二进制文件的方向) 。然后解压缩它:

tar -xvf spark-2.0.0-bin-hadoop2.x.tgz -C /opt

现在您只需要设置一些环境变量。首先在~/.bashrc(或~/.zshrc)中,您可以设置SPARK_HOME并根据需要将其添加到PATH

export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop-2.x
export PATH=$PATH:$SPARK_HOME/bin

此更改生效后,您可以运行:

source ~/.bashrc

其次,您需要将Spark指向您的Hadoop configuartion目录。为此,请在$SPARK_HOME/conf/spark-env.sh中设置这两个环境变量:

export HADOOP_CONF_DIR=[your-hadoop-conf-dir usually $HADOOP_PREFIX/etc/hadoop]
export YARN_CONF_DIR=[your-yarn-conf-dir usually the same as the last variable]

如果此文件不存在,您可以复制$SPARK_HOME/conf/spark-env.sh.template的内容并从那里开始。

现在以纱线模式启动shell,您可以运行:

spark-shell --master yarn --deploy-mode client

(您无法在cluster deploy-mode中运行shell)

-----------更新

我忘了提到您也可以使用此配置提交群集作业(感谢@JulianCienfuegos):

spark-submit --master yarn --deploy-mode cluster project-spark.py

这样您就无法在终端中看到输出,并且一旦提交作业(未完成),命令就会退出。

您也可以使用--deploy-mode client查看终端中的输出,但只是执行此操作进行测试,因为如果命令被中断(例如您按Ctrl+C或您的会话结束)