Hadoop会不会在节点之间平均分配工作?

时间:2013-03-13 20:04:09

标签: hadoop mapreduce hdfs job-scheduling mappers

假设我有200个输入文件和20个节点,每个节点有10个映射器插槽。 Hadoop是否会始终均匀地分配工作,这样每个节点将获得10个输入文件并同时启动10个映射器?有没有办法强迫这种行为?

1 个答案:

答案 0 :(得分:2)

使用多少映射器由输入决定 - 特别是输入分割。 因此,在您的情况下,可以将200个文件提供给200个映射器。但真正的答案有点复杂。这取决于

  • 文件大小:如果文件大于块大小,则将块大小的块发送到映射器

  • 是可分割的文件。例如gzip压缩文件无法拆分。并且整个文件转到一个映射器(即使文件大于块大小)