使用Ambari 2.4.2.0安装spark 2.1.0

时间:2017-03-17 16:25:00

标签: hadoop apache-spark cluster-computing hortonworks-data-platform ambari

我对Spark和Ambari的集群安装相对较新。最近,我得到了一个在集群上安装Spark 2.1.0的任务,该集群预装了带有HDFS&的Spark 1.6.2的Ambari。纱线2.7.3。

我的任务是安装Spark 2.1.0,因为它是最新版本,具有更好的RSpark兼容性等。我在互联网上搜索了几天,仅在AWS或Spark 2.1.0上找到了一些安装指南。

如下: http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/http://spark.apache.org/docs/latest/building-spark.html

但他们都没有提到不同版本Spark的干扰。由于我需要保持此群集的运行,我想知道群集的一些潜在威胁。

有没有正确的方法来进行此安装?非常感谢!

1 个答案:

答案 0 :(得分:3)

如果您希望由Ambari管理SPARK2安装,则必须由Ambari配置SPARK2。

HDP 2.5.3 NOT 支持Spark 2.1.0,但它提供了Spark 2.0.0的技术预览。

您的选择是:

  • 手动安装Spark 2.1.0,而不是由Ambari管理
  • 使用Spark 2.0.0代替HDP 2.5.3提供的Spark 2.1.0
  • 使用其他堆栈。即。 IBM开放平台(IOP)4.3,计划于2017年发布,它将附带Spark 2.1.0支持。您今天可以使用technical preview release开始使用它。
  • 升级支持Spark 2.1的HDP(2.6)。
  • 扩展HDP 2.5堆栈以支持Spark 2.1.0。您可以在wiki上看到如何自定义和扩展ambari堆栈。这将让你使用Spark 2.1.0并由ambari管理。但是,要实施这项工作需要做很多工作,而且如果你是Ambari的新手,那将会非常困难。