如何使用Hadoop 2.x提交Hadoop流媒体作业并检查执行历史记录

时间:2014-10-31 09:12:39

标签: hadoop hadoop2 mrv2

我是Hadoop的新手。在Hadoop 1.X中,我可以从主节点提交hadoop流式传输作业,并从namenode web检查结果和执行时间。

以下是Hadoop 1.X中hadoop流的示例代码:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc

但是,在Hadoop 2.x中,删除了作业跟踪器。如何在Hadoop 2.X中获得相同的功能?

1 个答案:

答案 0 :(得分:0)

在Hadoop 2.0中,您可以通过多种方式查看作业

1)从ResourceManager UI ResourceMnagerhostname:8088 / cluster
查看作业 2)查看HUE的工作 - HUEServerHostname.com:8888/jobbrowser/
3)从命令行(一旦完成作业)

用法:纱线日志-applicationId [OPTIONS]

一般选项是:  -appOwner AppOwner(假设是当前用户,如果                                  未标明)  -containerId ContainerId(必须指定节点                                  指定地址)  -nodeAddress NodeAddress,格式为nodename:port                                  (如果容器ID是,则必须指定                                  指定) 示例:yarn logs -applicationId application_1414530900704_0005