标签: hadoop mapreduce
我试图理解mapreduce的InputFormat类应该如何处理分割和块。
如果我理解正确:
这是对的吗?
但是,API要求的RecordReader实例是否严格处理/处理其拆分中的数据?或者是否允许读取其分割范围之外的数据?它是否仍然可以读取文件的任何部分,即使它必须超出当前块? (因此可能以下文件在另一台机器上) 从本质上讲,分裂只是一个"提示"记录阅读器?
因为如果不是这种情况并且分割是严格的,那么我似乎无法处理每个记录具有非固定大小的简单文件。