我在单节点集群中运行Hadoop 2.7.3中的MapReduce作业。如何计算地图所用的时间并减少这项工作的任务?
解决 如果它可以帮助任何人查看这个问题或面临类似的问题。 感谢@ Shubham的回答以及我所做的一些研究:
尝试访问作业历史记录服务器时可能会遇到错误。它可能表明该应用程序没有历史记录。在这种情况下,请按照以下步骤操作:
步骤:
i. In your terminal, type "nano ~/.bashrc"
ii. Now in this file, where the other hadoop variables are written add the line
export HADOOP_CONFIG_DIR=/usr/local/hadoop/etc/hadoop
iii. Exit out of nano and save the file.
iv. Run the command "source ~/.bashrc"
1。启动作业历史记录服务器
步骤:
i. Run the command in your terminal
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONFIG_DIR start historyserver
ii. Then run the command
jps
You should be able to see the "JobHistoryServer" in the list
iii. Now run the command
netstat -ntlp | grep 19888
答案 0 :(得分:0)
您可以转到jobtracker(默认情况下在端口50030上运行)并检查作业详细信息。它显示了Map时间和减少时间的计数器。此外,如果您对单个任务感兴趣,可以点击“分析此工作”链接,该链接显示最佳和最差的任务。
答案 1 :(得分:0)
点击资源管理器的网页用户界面(http://rm_http_address_host:port/)。通常,Web端口为8088.您可以点击http://resourcemanager_host:8088/。
在那里,您可以找到处于各种状态的所有应用程序的链接,如STARTED,RUNNING,FAILED,SUCCEEDED等。
点击每个应用程序的链接将为您提供有关该纱线作业的所有统计数据(如mapreduce的容器数量(映射器/减速器),使用的内存/ Vcores,运行时间和更多统计数据。)
ResourceManager REST API提供了很多统计数据。在这里查找https://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.html