hadoop - 如何使用Yarn在cloudera上添加Spark工作节点

我们有cloudera 5.2并且用户希望开始充分利用Spark（在分布式模式下可以利用HDFS获得数据局部性），该服务已经安装并可在cloudera manager Status中获得（在家中）但是当单击服务然后“实例”时，它只显示历史服务器角色，而在其他节点中显示网关服务器角色。根据我对Spark的架构的理解，你有一个主节点和工作节点（与HDFS数据节点一起生存）所以在cloudera管理器中我尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作节点（或执行程序）角色添加到具有HDFS数据节点的主机？或者是不必要的（我认为由于纱线，纱线负责创建执行者和应用程序主人）？什么是masternode的情况？我是否需要配置任何内容以便用户可以在完全分布式模式下使用Spark？

master和worker角色是Spark Standalone服务的一部分。您可以选择Spark来运行YARN（Master和Worker节点无关）或Spark（Standalone）。

由于您已经在Cloudera Manager中启动了Spark服务而不是Spark（Standalone），因此Spark已经在使用YARN。在Cloudera Manager 5.2及更高版本中，有两个独立的Spark服务（Spark和Spark（独立））。 Spark服务将Spark作为YARN应用程序运行，除Spark History Server角色外，仅具有网关角色。

如何将Sparks worker node（或executor）角色添加到主机所在的位置你有HDFS数据节点吗？

不需要。这些主机上只需要网关角色。

引自CM Documentation：

在Cloudera Manager Gateway角色中，负责将客户端配置传播到群集中的其他主机。因此，请确保将网关角色分配给群集中的主机。如果您没有网关角色，则不会部署客户端配置。

如何使用Yarn在cloudera上添加Spark工作节点

1 个答案: