有没有办法使用Hadoop API(Hadoop 1.2.1)从客户端获取每个reduce任务所需的shuffle时间。我可以使用getReduceTaskReports(JobID jobID)方法从JobClient获取reduce任务的执行时间,但我想知道是否有办法获得与shuffle时间相对应的百分比。 提前致谢。
答案 0 :(得分:1)
问题的解决方案是使用Apache Rumen(http://hadoop.apache.org/docs/r1.2.1/rumen.html)。这个框架使您能够以JSON格式检索作业历史记录日志,通过简单的JSON解析,我能够检索到我需要的信息。