我刚刚开始研究Hadoop 我想知道hadoop如何管理负载平衡。
如果我在一个集群中有5个节点,那么Howoop如何确保每个节点具有相同的工作负载? Hadoop是否使用任何算法进行负载均衡?
你能帮我学习一下Hadoop吗?
答案 0 :(得分:1)
我假设你的意思是YARN,ResourceManager,而不是HDFS,即文件系统。
YARN不确保也不保证平等处理。
就MapReduce而言,如果您的数据严重偏向于特定的密钥对,那么一个节点的一个进程将成为该工作的瓶颈。
如果您的意思是HDFS,那么确实有一种称为HDFS Rebalancer的东西,但是这样可以确保您的数据在群集中相当分散,这样就可以更好地分配作业。 "数据位置"。但是,这仍然无法帮助解决数据的偏差。