应用错误收集

谁在hadoop中拆分文件？是Job Tracker吗？

时间：2014-06-27 03:30:15

标签： hadoop hdfs

我想知道当客户端将数据存储到hdfs时，谁正确执行将Large文件拆分为较小块的任务？客户端是否直接将数据写入DataNodes？如果是这样，数据何时被分成64 MB或128 MB？

1 个答案:

答案 0 :(得分：2)

JobClient不是作业跟踪器

Job Client计算位于输入路径中的数据的输入拆分在运行作业时指定的HDFS上。文章说那时约伯客户端将资源（jar和计算输入拆分）复制到HDFS。

输入本身依赖于群集。客户端仅计算从namenode获得的元信息（块大小，数据长度，块位置）。这些computed输入拆分将元信息传递给任务，例如。块偏移量和要计算的长度。