我正在寻找有关如何在现有虚拟纱线群集上安装火花的指南。
我有一个由两个节点组成的纱线群,运行map-reduce工作,完美无缺。在日志中查找结果,一切正常。
现在我需要在vagrantfile中添加spark安装命令和配置文件。我找不到一个好的指南,有人可以给我一个很好的链接吗?
我将此指南用于纱线群
提前致谢!
答案 0 :(得分:2)
我不了解流浪汉,但我已经在hadoop 2.6(在YARN后面的指南中)安装了Spark,我希望这会有所帮助。
在现有的hadoop上安装Spark非常简单,只需要在一台机器上安装即可。为此,您必须从it's official website下载为您的hadoop版本预先构建的版本(我猜您可以使用without hadoop
版本,但您需要将其指向系统中hadoop二进制文件的方向) 。然后解压缩它:
tar -xvf spark-2.0.0-bin-hadoop2.x.tgz -C /opt
现在您只需要设置一些环境变量。首先在~/.bashrc
(或~/.zshrc
)中,您可以设置SPARK_HOME
并根据需要将其添加到PATH
:
export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop-2.x
export PATH=$PATH:$SPARK_HOME/bin
此更改生效后,您可以运行:
source ~/.bashrc
其次,您需要将Spark指向您的Hadoop configuartion目录。为此,请在$SPARK_HOME/conf/spark-env.sh
中设置这两个环境变量:
export HADOOP_CONF_DIR=[your-hadoop-conf-dir usually $HADOOP_PREFIX/etc/hadoop]
export YARN_CONF_DIR=[your-yarn-conf-dir usually the same as the last variable]
如果此文件不存在,您可以复制$SPARK_HOME/conf/spark-env.sh.template
的内容并从那里开始。
现在以纱线模式启动shell,您可以运行:
spark-shell --master yarn --deploy-mode client
(您无法在cluster
deploy-mode中运行shell)
-----------更新
我忘了提到您也可以使用此配置提交群集作业(感谢@JulianCienfuegos):
spark-submit --master yarn --deploy-mode cluster project-spark.py
这样您就无法在终端中看到输出,并且一旦提交作业(未完成),命令就会退出。
您也可以使用--deploy-mode client
查看终端中的输出,但只是执行此操作进行测试,因为如果命令被中断(例如您按Ctrl+C
或您的会话结束)