与FileSystemCounters混淆了Hadoop中的作业完成历史

时间:2013-06-24 03:13:18

标签: hadoop

在hadoop的作业完成历史中,我对一些FileSystemCounters感到困惑。

  1. 有关FILE_BYTES_READ和HDFS_BYTES_READ的区别。

  2. 为什么HDFS_BYTES_READ与Map输入字节的值不同?

  3. Spilled Records和Reduce输出记录之间有什么区别?

1 个答案:

答案 0 :(得分:0)

以下是解释 a)FILE_BYTES_READ -          当Mapper的输入来自本地文件时计算。通常为0,但是当mapper将文件作为中间输出发出时,会出现合并排序,以便合并文件。映射器中的FILE_BYTES_READ就是那个。

b)HDFS_BYTES_READ -         对于映射器,它是来自HDFS的映射输入字节,包括有关拆分的元数据。         对于减速机,通常为0.

c)地图输入字节 -         映射器读取的确切输入字节数。通常,输入字节将略微小于HDFS_BYTES_READ。

d)溢出记录 -         对于mapper和reducer,它是在作业执行期间溢出到磁盘的记录数

e)减少输出记录 -      减速器发出的最终记录数。