如何在HortonWorks HDP 2.2上安装Apache Spark(使用Ambari构建)

时间:2014-12-23 08:02:27

标签: hortonworks-data-platform ambari

我使用Ambari成功构建了一个5节点的HortonWorks HDP 2.2集群。

但是我没有在已安装的服务列表中看到Apache Spark。

我做了一些研究,发现Ambari没有安装某些组件,如色调等等(Spark不在该列表中,但我猜它没有安装)。

如何在我的5节点HDP 2.2上手动安装Apache spark?

或者我应该删除群集并在不使用Ambari的情况下执行全新安装?

3 个答案:

答案 0 :(得分:1)

Hortonworks对Spark的支持已经到达但尚未完全(detailsblog)。

可以找到有关如何将Spark与HDP集成的说明here

答案 1 :(得分:1)

您可以为Spark构建自己的Ambari Stack。我最近做到了这一点,但我不能分享那些代码:(

我能做的就是分享一个关于如何为Ambari做任何堆栈的教程,包括Spark。 Spark中有许多有趣的问题需要解决,本教程不介绍。无论如何希望它有所帮助。 http://bit.ly/1HDBgS6

这里还有Ambari人的指南:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=38571133

答案 2 :(得分:0)

1)Ambari 1.7x不为HDP 2.2堆栈安装Accumulo,Hue,Ranger或Solr服务。 要安装Accumulo,Hue,Knox,Ranger和Solr服务,请安装 HDP手动。


2)YARN上的Apache Spark 1.2.0与HDP 2.2:here


3) Spark and Hadoop: Working Together

独立部署:通过独立部署,可以静态地在Hadoop集群中的所有或部分计算机上分配资源,并与Hadoop MR并行运行Spark。然后,用户可以在其HDFS数据上运行任意Spark作业。它的简单性使其成为许多Hadoop 1.x用户的首选部署。

Hadoop Yarn部署:已部署或计划部署Hadoop Yarn的Hadoop用户只需在YARN上运行Spark,无需任何预安装或管理访问。这使用户可以轻松地将Spark集成到他们的Hadoop堆栈中,并充分利用Spark的全部功能,以及在Spark上运行的其他组件。

MapReduce中的Spark:对于尚未运行YARN的Hadoop用户,除了独立部署之外,另一个选项是使用SIMR在MapReduce中启动Spark作业。使用SIMR,用户可以在下载后的几分钟内开始尝试Spark并使用它的shell!这极大地降低了部署的障碍,几乎每个人都可以使用Spark。