如何在群集模式下使用Spark设置YARN

时间:2018-01-17 14:01:44

标签: apache-spark yarn

我需要在centos7上设置spark集群(1个主节点和2个从节点)以及资源管理器作为YARN。我是这一切的新手,仍在探索中。有人可以分享我在集群模式下设置Spark with Yarn的详细步骤。 之后我也必须集成Livy(一个开源的REST接口,可以从任何地方使用Spark)。 欢迎输入。谢谢

2 个答案:

答案 0 :(得分:1)

YARN是Hadoop的一部分。因此,在YARN上运行Spark需要Hadoop安装 查看Hadoop Cluster Setup上的页面。

然后你可以利用this documentation来了解关于YARN上的Spark。

快速了解Hadoop,YARN和Spark的另一种方法是利用Hadoop的Cloudera Distribution(CDH)。阅读CDH 5 Quick Start Guide

答案 1 :(得分:0)

我们目前在AWS中使用类似的设置。因此,AWS EMR成本很高 我们在Hadoop Cookbook的帮助下使用ec2机器设置了自己的集群。该食谱支持多种发行版,但是我们选择HDP。

设置包括以下内容。

  1. 主设置
    1. 火花(与历史记录服务器一起)
    2. 纱线资源管理器
    3. HDFS名称节点
    4. Livy服务器
  2. 从站设置
    1. 纱线节点管理器
    2. HDFS数据节点

有关手动安装的更多信息,请参见HDP Documentation

您可以在here中看到自动化的一部分。