如何使用Yarn在cloudera上添加Spark工作节点

时间:2017-03-07 23:29:39

标签: hadoop apache-spark cloudera-cdh cloudera-manager

我们有cloudera 5.2并且用户希望开始充分利用Spark(在分布式模式下可以利用HDFS获得数据局部性),该服务已经安装并可在cloudera manager Status中获得(在家中)但是当单击服务然后“实例”时,它只显示历史服务器角色,而在其他节点中显示网关服务器角色。根据我对Spark的架构的理解,你有一个主节点和工作节点(与HDFS数据节点一起生存)所以在cloudera管理器中我尝试了“添加角色实例”,但只有“网关”角色可用。如何将Sparks工作节点(或执行程序)角色添加到具有HDFS数据节点的主机?或者是不必要的(我认为由于纱线,纱线负责创建执行者和应用程序主人)?什么是masternode的情况?我是否需要配置任何内容以便用户可以在完全分布式模式下使用Spark?

1 个答案:

答案 0 :(得分:2)

master和worker角色是Spark Standalone服务的一部分。您可以选择Spark来运行YARN(Master和Worker节点无关)或Spark(Standalone)。

由于您已经在Cloudera Manager中启动了Spark服务而不是Spark(Standalone),因此Spark已经在使用YARN。在Cloudera Manager 5.2及更高版本中,有两个独立的Spark服务(Spark和Spark(独立))。 Spark服务将Spark作为YARN应用程序运行,除Spark History Server角色外,仅具有网关角色。

  

如何将Sparks worker node(或executor)角色添加到主机所在的位置   你有HDFS数据节点吗?

不需要。这些主机上只需要网关角色。

引自CM Documentation

在Cloudera Manager Gateway角色中,负责将客户端配置传播到群集中的其他主机。因此,请确保将网关角色分配给群集中的主机。如果您没有网关角色,则不会部署客户端配置。