我需要在centos7上设置spark集群(1个主节点和2个从节点)以及资源管理器作为YARN。我是这一切的新手,仍在探索中。有人可以分享我在集群模式下设置Spark with Yarn的详细步骤。 之后我也必须集成Livy(一个开源的REST接口,可以从任何地方使用Spark)。 欢迎输入。谢谢
答案 0 :(得分:1)
YARN是Hadoop的一部分。因此,在YARN上运行Spark需要Hadoop安装 查看Hadoop Cluster Setup上的页面。
然后你可以利用this documentation来了解关于YARN上的Spark。
快速了解Hadoop,YARN和Spark的另一种方法是利用Hadoop的Cloudera Distribution(CDH)。阅读CDH 5 Quick Start Guide。
答案 1 :(得分:0)
我们目前在AWS中使用类似的设置。因此,AWS EMR成本很高 我们在Hadoop Cookbook的帮助下使用ec2机器设置了自己的集群。该食谱支持多种发行版,但是我们选择HDP。
设置包括以下内容。
有关手动安装的更多信息,请参见HDP Documentation
您可以在here中看到自动化的一部分。