计算最终地图中的总行数会减少hadoop中的输出

时间:2018-07-10 00:38:36

标签: java hadoop mapreduce hadoop2

当前,我的num reduce任务设置为job.setNumReduceTasks(100);

所以我的最终输出目录在S3中,如下所示

/output/part-r-00000.gz
/output/part-r-00001.gz
... etc

为了统计所有行,我必须手动下载并解压缩所有文件,并逐个查看每个文件的总行。

在hadoop上下文中某处是否存在总行度量标准存储?

1 个答案:

答案 0 :(得分:0)

Map Reduce应用程序日志存储用于map和reduce任务的计数器。对于所有reducer,如果您查看作业日志(准确地说是计数器),则类似“ reduce output records”之类的信息将为您提供所需的信息。但是,这是HDP平台,RM UI在作业计数器部分具有所有信息。