Question

我正在寻找有关如何在现有虚拟纱线群集上安装火花的指南。

我有一个由两个节点组成的纱线群，运行map-reduce工作，完美无缺。在日志中查找结果，一切正常。

现在我需要在vagrantfile中添加spark安装命令和配置文件。我找不到一个好的指南，有人可以给我一个很好的链接吗？

我将此指南用于纱线群

http://www.alexjf.net/blog/distributed-systems/hadoop-yarn-installation-definitive-guide/#single-node-installation

提前致谢！

Answer 1

我不了解流浪汉，但我已经在hadoop 2.6（在YARN后面的指南中）安装了Spark，我希望这会有所帮助。

在现有的hadoop上安装Spark非常简单，只需要在一台机器上安装即可。为此，您必须从it's official website下载为您的hadoop版本预先构建的版本（我猜您可以使用without hadoop版本，但您需要将其指向系统中hadoop二进制文件的方向）。然后解压缩它：

tar -xvf spark-2.0.0-bin-hadoop2.x.tgz -C /opt

现在您只需要设置一些环境变量。首先在~/.bashrc（或~/.zshrc）中，您可以设置SPARK_HOME并根据需要将其添加到PATH：

export SPARK_HOME=/opt/spark-2.0.0-bin-hadoop-2.x export PATH=$PATH:$SPARK_HOME/bin

此更改生效后，您可以运行：

source ~/.bashrc

其次，您需要将Spark指向您的Hadoop configuartion目录。为此，请在$SPARK_HOME/conf/spark-env.sh中设置这两个环境变量：

export HADOOP_CONF_DIR=[your-hadoop-conf-dir usually $HADOOP_PREFIX/etc/hadoop] export YARN_CONF_DIR=[your-yarn-conf-dir usually the same as the last variable]

如果此文件不存在，您可以复制$SPARK_HOME/conf/spark-env.sh.template的内容并从那里开始。

现在以纱线模式启动shell，您可以运行：

spark-shell --master yarn --deploy-mode client

（您无法在cluster deploy-mode中运行shell）

-----------更新

我忘了提到您也可以使用此配置提交群集作业（感谢@JulianCienfuegos）：

spark-submit --master yarn --deploy-mode cluster project-spark.py

这样您就无法在终端中看到输出，并且一旦提交作业（未完成），命令就会退出。

您也可以使用--deploy-mode client查看终端中的输出，但只是执行此操作进行测试，因为如果命令被中断（例如您按Ctrl+C或您的会话结束）

在纱线簇上安装火花

1 个答案: