我使用Ambari成功构建了一个5节点的HortonWorks HDP 2.2集群。
但是我没有在已安装的服务列表中看到Apache Spark。
我做了一些研究,发现Ambari没有安装某些组件,如色调等等(Spark不在该列表中,但我猜它没有安装)。
如何在我的5节点HDP 2.2上手动安装Apache spark?
或者我应该删除群集并在不使用Ambari的情况下执行全新安装?
答案 0 :(得分:1)
答案 1 :(得分:1)
您可以为Spark构建自己的Ambari Stack。我最近做到了这一点,但我不能分享那些代码:(
我能做的就是分享一个关于如何为Ambari做任何堆栈的教程,包括Spark。 Spark中有许多有趣的问题需要解决,本教程不介绍。无论如何希望它有所帮助。 http://bit.ly/1HDBgS6
这里还有Ambari人的指南:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=38571133。
答案 2 :(得分:0)
1)Ambari 1.7x不为HDP 2.2堆栈安装Accumulo,Hue,Ranger或Solr服务。 要安装Accumulo,Hue,Knox,Ranger和Solr服务,请安装 HDP手动。
2)YARN上的Apache Spark 1.2.0与HDP 2.2:here。
3)
Spark and Hadoop: Working Together:
独立部署:通过独立部署,可以静态地在Hadoop集群中的所有或部分计算机上分配资源,并与Hadoop MR并行运行Spark。然后,用户可以在其HDFS数据上运行任意Spark作业。它的简单性使其成为许多Hadoop 1.x用户的首选部署。
Hadoop Yarn部署:已部署或计划部署Hadoop Yarn的Hadoop用户只需在YARN上运行Spark,无需任何预安装或管理访问。这使用户可以轻松地将Spark集成到他们的Hadoop堆栈中,并充分利用Spark的全部功能,以及在Spark上运行的其他组件。
MapReduce中的Spark:对于尚未运行YARN的Hadoop用户,除了独立部署之外,另一个选项是使用SIMR在MapReduce中启动Spark作业。使用SIMR,用户可以在下载后的几分钟内开始尝试Spark并使用它的shell!这极大地降低了部署的障碍,几乎每个人都可以使用Spark。