我是hadoop的新手,这可能是一个愚蠢的问题,但我一直在寻找它几个小时,但找不到怎么做。
我正在使用不同数量的映射器和缩减器运行Hadoop MapReduce,以查看性能差异(例如执行时间)。我想检查是否使用了指定数量的映射器/缩减器,但我无法弄清楚我是如何做到的。
Hadoop 1.2.1安装在具有超线程的四核机器上,我正在服务器上运行,而Hadoop正在以伪分布式模式运行。
我的MapReduce程序是用Python编写的,所以我使用的是hadoop-streaming,这就是我运行MR程序的方式。
$ hadoop jar /Users/hadoop/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar
-file /Users/hadoop/map.py
-mapper /Users/hadoop/map.py
-file /Users/hadoop/reduce.py
-reducer /Users/hadoop/reduce.py
-input file:///Users/hadoop/inputfile
-output file:///Users/hadoop/outputfile
我希望看到类似this的日志信息,或者提供此类信息的任何内容。
答案 0 :(得分:0)
您正在寻找一种名为资源管理器的服务 - 此Web界面包含指向您在问题中链接到的日志的链接。 This stackoverflow post有一些关于如何实现它的答案。鉴于您的hadoop版本,从运行hadoop的机器上,您应该能够访问localhost:50030以查看资源管理器。