在hadoop的作业完成历史中,我对一些FileSystemCounters感到困惑。
有关FILE_BYTES_READ和HDFS_BYTES_READ的区别。
为什么HDFS_BYTES_READ与Map输入字节的值不同?
Spilled Records和Reduce输出记录之间有什么区别?
答案 0 :(得分:0)
以下是解释 a)FILE_BYTES_READ - 当Mapper的输入来自本地文件时计算。通常为0,但是当mapper将文件作为中间输出发出时,会出现合并排序,以便合并文件。映射器中的FILE_BYTES_READ就是那个。
b)HDFS_BYTES_READ - 对于映射器,它是来自HDFS的映射输入字节,包括有关拆分的元数据。 对于减速机,通常为0.
c)地图输入字节 - 映射器读取的确切输入字节数。通常,输入字节将略微小于HDFS_BYTES_READ。
d)溢出记录 - 对于mapper和reducer,它是在作业执行期间溢出到磁盘的记录数
e)减少输出记录 - 减速器发出的最终记录数。