我如何知道映射器(或Reducer)是否在Hadoop中并行运行?

时间:2015-04-11 12:30:30

标签: java hadoop parallel-processing mapreduce

我目前正在一个带有8个从属节点的Hadoop - 2.3.0群集上运行一些MapReduce作业,但这些作业的执行时间比预期的要长。

如何测试map(或reduce)任务是否并行运行?

在配置文件中需要修改哪些属性,以便Mappers(在本例中为8个)并行运行。

2 个答案:

答案 0 :(得分:0)

您应该检查Hadoop集群Web界面。

转到跟踪您的工作状态的网址,查找与此类似的行:

15/04/11 17:29:07 INFO mapreduce.Job:跟踪工作的网址:http://hadoopsrv:60540/proxy/application_1428349332728_0303/

此网页显示作业状态(成功/失败...),每项任务完成的时间,地图/减少任务的数量及其状态,日志等......

答案 1 :(得分:0)

Hadoop附带了几个Web界面,默认情况下可在以下位置使用:

http://namenode1_server_ip_address:50070 - 用于HDFS namenode1的Web UI http://namenode2_server_ip_address:50070 - 用于HDFS namenode2的Web UI http://resource_manager_server_ip_address:8088 - MapReduceJobTracker的Web UI http://job_history_server_ip_address:19888 - TaskTracker的Web UI

通过使用这些所有Web用户界面,您可以检查所有hadoop映射器,reducer,活动名称节点,datanode等的状态。