计算减速器hadoop所用的时间

时间:2017-02-10 16:42:38

标签: hadoop mapreduce

我在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所用的时间并减少这项工作的任务?

解决 如果它可以帮助任何人查看这个问题或面临类似的问题。 感谢@ Shubham的回答以及我所做的一些研究:

  1. 已在hadoop 2中删除了作业跟踪器。它已被拆分为资源管理器和应用程序管理器。
  2. 要访问资源管理器,请在浏览器中输入网址" http://localhost:8088"
  3. 要访问作业历史记录服务器(以查看有关已完成的应用程序和作业的统计信息),请在浏览器中输入网址" http://localhost:19888"
  4. 尝试访问作业历史记录服务器时可能会遇到错误。它可能表明该应用程序没有历史记录。在这种情况下,请按照以下步骤操作:

    1. 更改bashrc文件
    2. 步骤:

      i. In your terminal, type "nano ~/.bashrc"
      ii. Now in this file, where the other hadoop variables are written add the line
          export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
      iii. Exit out of nano and save the file.
      iv. Run the command "source ~/.bashrc"
      

      1。启动作业历史记录服务器

      步骤:

      i. Run the command in your terminal
      $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
      ii. Then run the command 
          jps
      You should be able to see the "JobHistoryServer" in the list
      iii. Now run the command
      netstat -ntlp | grep 19888
      

2 个答案:

答案 0 :(得分:0)

您可以转到jobtracker(默认情况下在端口50030上运行)并检查作业详细信息。它显示了Map时间和减少时间的计数器。此外,如果您对单个任务感兴趣,可以点击“分析此工作”链接,该链接显示最佳和最差的任务。

答案 1 :(得分:0)

点击资源管理器的网页用户界面(http://rm_http_address_host:port/)。通常,Web端口为8088.您可以点击http://resourcemanager_host:8088/
在那里,您可以找到处于各种状态的所有应用程序的链接,如STARTED,RUNNING,FAILED,SUCCEEDED等。 点击每个应用程序的链接将为您提供有关该纱线作业的所有统计数据(如mapreduce的容器数量(映射器/减速器),使用的内存/ Vcor​​es,运行时间和更多统计数据。)
ResourceManager REST API提供了很多统计数据。在这里查找https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html