有人可以向我解释hadoop中Edge节点的架构。 我只能在互联网上找到定义,我有以下疑问 -
1)边缘节点是否必须是集群的一部分(如果它在集群内部,我们有什么优势?)。它是否在hdfs中存储任何数据块。
2)边缘节点可以在群集之外吗?
答案 0 :(得分:14)
+1戴尔的解释。在我看来,Hadoop集群中的边缘节点通常是负责运行Hadoop集群的客户端操作的节点。通常,边缘节点与包含Hadoop服务(例如HDFS,MapReduce等)的节点分开,主要是为了使计算资源分开。对于只有少数节点的较小集群,通常会看到节点为主服务(JT,NN等),从属服务(TT,DN等)和网关服务扮演混合角色组合。
请注意,在同一节点上运行主从Hadoop服务不是理想的设置,并且可能会导致扩展和资源问题,具体取决于使用的内容。这种配置通常出现在小规模的开发环境中。
话虽如此,以下是您发布的问题的一些答案:
边缘节点不必是集群的一部分,但是如果它位于集群之外(意味着它没有运行任何特定的Hadoop服务角色),它将需要一些基本部分,如Hadoop二进制文件和当前的Hadoop集群配置文件,用于在集群上提交作业。
根据正在使用的分布,群集中运行的边缘节点允许集中管理群集节点上的所有Hadoop配置条目,这有助于减少更新配置文件所需的管理量。通常这是一对多的方法,其中配置条目在一个位置更新,并被推送到集群中的所有(许多)节点。
但是,当群集中的一个节点也用作边缘节点时,客户端操作会消耗CPU和内存资源,从而减少可供运行的Hadoop服务使用的可用资源。节点
除非边缘节点配置了DataNode服务,否则数据块将不会存储在该节点上。
如上所述,它可以依赖于集群环境和用例;在集群外部配置它的一个支持原因是保持客户端运行和Hadoop服务分离。
保持边缘节点分离允许该节点利用可用于Hadoop处理的完整计算资源。
希望这有帮助!
答案 1 :(得分:5)
Edgenodes不是常见的Hadoop术语。我希望你找到了我应该回答你的问题的相同定义....这是来自戴尔。
EdgeNode - EdgeNode是需要使用的外部应用程序,工具和用户的访问点 Hadoop环境。 EdgeNode位于Hadoop集群和企业网络之间 Hadoop环境的访问控制,策略实施,日志记录和网关服务。一个典型的 根据性能需求,Hadoop环境至少有一个EdgeNode和更多。
所以这取决于你。 Edgenode可能在群集中,也可能不在群集中。它可能运行Hadoop软件,或者只能访问它。就我所见,您根本不需要一个 - 它只是您可以访问群集的方式的名称。
答案 2 :(得分:0)
边缘节点只不过是hadoop集群的守门员,它允许你访问hadoop应用程序,如hive,pig ..而我会说它是与集群通信的客户端。