我想知道 当客户端将数据存储到hdfs时,谁正确执行将Large文件拆分为较小块的任务? 客户端是否直接将数据写入DataNodes?如果是这样,数据何时被分成64 MB或128 MB?
答案 0 :(得分:2)
JobClient不是作业跟踪器
Job Client计算位于输入路径中的数据的输入拆分 在运行作业时指定的HDFS上。文章说那时约伯 客户端将资源(jar和计算输入拆分)复制到HDFS。
输入本身依赖于群集。客户端仅计算从namenode获得的元信息(块大小,数据长度,块位置)。这些computed
输入拆分将元信息传递给任务,例如。块偏移量和要计算的长度。