在Cloudera Spark2中为角色分配角色时是否有任何一般规则?

时间:2017-09-14 16:52:46

标签: apache-spark cloudera gateway

我计划在Cloudera中将现有的Spark 1.6升级到2.1,我被告知我应该为所有节点管理器和资源管理器节点分配网关角色。当前网关角色被分配给代理节点,该代理节点未包含在计划的Spark2中,原因是代理节点有太多(20+)个角色,我想知道是否有人可以在此提出任何建议?我检查了Cloudera doc,我没有看到它的指南(或者我可能错过了它?)

非常感谢。

2 个答案:

答案 0 :(得分:1)

我对另一个答案略有不同意见,其中说

  

默认情况下,运行服务的任何主机都将具有配置文件   包括在内,因此您无需向节点管理器添加网关角色   和资源管理器角色

只需在节点上运行节点管理器和资源管理器为您提供YARN的配置文件,而不是Spark2。话虽这么说,您只需要将Spark网关角色部署到边缘节点,允许最终用户登录并运行命令行工具,如beeline,hdfs命令和spark-shell / spark-submit。作为安全策略,不应允许任何人登录您的节点管理器/ Datanode。

在您的情况下,它看起来像您所谓的代理节点。网关只是配置文件,不是正在运行的进程。所以我认为你不必担心现有的太多角色。

答案 1 :(得分:0)

网关角色只有配置文件,例如/ etc / hadoop / conf / *。它允许客户端在该主机上运行(hdfs,hadoop,yarn,spark CLI)并向集群提交命令。默认情况下,运行服务的任何主机都将包含配置文件,因此您无需向节点管理器和资源管理器角色添加网关角色。

官方文件描述如下: Managing Roles: Gateway Roles

  

网关是一种特殊类型的角色,其唯一目的是在主机上没有运行任何角色时指定应接收特定服务的客户端配置的主机。网关角色使Cloudera Manager能够在该主机上安装和管理客户端配置。没有与网关角色关联的进程,其状态将始终为“已停止”。您可以为HBase,HDFS,Hive,Kafka,MapReduce,Solr,Spark,Sqoop 1 Client和YARN配置网关角色。