谁在hadoop中拆分文件?是Job Tracker吗?

时间:2014-06-27 03:30:15

标签: hadoop hdfs

我想知道 当客户端将数据存储到hdfs时,谁正确执行将Large文件拆分为较小块的任务? 客户端是否直接将数据写入DataNodes?如果是这样,数据何时被分成64 MB或128 MB?

1 个答案:

答案 0 :(得分:2)

JobClient不是作业跟踪器

  

Job Client计算位于输入路径中的数据的输入拆分   在运行作业时指定的HDFS上。文章说那时约伯   客户端将资源(jar和计算输入拆分)复制到HDFS。

输入本身依赖于群集。客户端仅计算从namenode获得的元信息(块大小,数据长度,块位置)。这些computed输入拆分将元信息传递给任务,例如。块偏移量和要计算的长度。