Hadoop中的负载平衡

时间:2016-03-16 06:42:07

标签: hadoop load-balancing

如何在hadoop环境中进行负载均衡。我刚刚开始阅读有关hadoop相关内容的内容。想知道负载均衡如何在整个生态系统中发挥作用

1 个答案:

答案 0 :(得分:1)

Hadoop将MapReduce作业的输入划分为固定大小的片段 输入 拆分 , 要不就 拆分 。 Hadoop为每个拆分创建一个映射任务,该任务运行用户 - 为每个人定义了地图功能 记录  在分裂。 有很多分裂意味着处理每个分割所花费的时间比较小 是时候处理整个输入了。因此,如果我们并行处理分裂, 如果分割很小​​,则cessing可以更好地进行负载平衡,因为更快的机器将能够 在较慢的机器上,在工作过程中按比例处理更多的分裂。 即使机器相同,失败的进程或其他同时运行的作业也是如此 使负载平衡变得可取,并且负载平衡的质量随之增加 分裂变得更细粒度。 另一方面,如果拆分太小,那么管理拆分的开销和 地图任务创建开始占据总的作业执行时间。对于大多数工作,a 好的分割大小往往是HDFS块的大小,默认为64 MB,尽管如此 可以为集群更改(对于所有新创建的文件),或在每个文件时指定 已创建。