应用错误收集

如何在HortonWorks HDP 2.2上安装Apache Spark（使用Ambari构建）

时间：2014-12-23 08:02:27

标签： hortonworks-data-platform ambari

我使用Ambari成功构建了一个5节点的HortonWorks HDP 2.2集群。

但是我没有在已安装的服务列表中看到Apache Spark。

我做了一些研究，发现Ambari没有安装某些组件，如色调等等（Spark不在该列表中，但我猜它没有安装）。

如何在我的5节点HDP 2.2上手动安装Apache spark？

或者我应该删除群集并在不使用Ambari的情况下执行全新安装？

3 个答案:

答案 0 :(得分：1)

Hortonworks对Spark的支持已经到达但尚未完全（details和blog）。

可以找到有关如何将Spark与HDP集成的说明here。

答案 1 :(得分：1)

您可以为Spark构建自己的Ambari Stack。我最近做到了这一点，但我不能分享那些代码：（

我能做的就是分享一个关于如何为Ambari做任何堆栈的教程，包括Spark。 Spark中有许多有趣的问题需要解决，本教程不介绍。无论如何希望它有所帮助。 http://bit.ly/1HDBgS6

这里还有Ambari人的指南：https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=38571133。

答案 2 :(得分：0)

1）Ambari 1.7x不为HDP 2.2堆栈安装Accumulo，Hue，Ranger或Solr服务。要安装Accumulo，Hue，Knox，Ranger和Solr服务，请安装 HDP手动。

2）YARN上的Apache Spark 1.2.0与HDP 2.2：here。

3） Spark and Hadoop: Working Together：

独立部署：通过独立部署，可以静态地在Hadoop集群中的所有或部分计算机上分配资源，并与Hadoop MR并行运行Spark。然后，用户可以在其HDFS数据上运行任意Spark作业。它的简单性使其成为许多Hadoop 1.x用户的首选部署。

Hadoop Yarn部署：已部署或计划部署Hadoop Yarn的Hadoop用户只需在YARN上运行Spark，无需任何预安装或管理访问。这使用户可以轻松地将Spark集成到他们的Hadoop堆栈中，并充分利用Spark的全部功能，以及在Spark上运行的其他组件。

MapReduce中的Spark：对于尚未运行YARN的Hadoop用户，除了独立部署之外，另一个选项是使用SIMR在MapReduce中启动Spark作业。使用SIMR，用户可以在下载后的几分钟内开始尝试Spark并使用它的shell！这极大地降低了部署的障碍，几乎每个人都可以使用Spark。