Hadoop在重新启动时会删除MapReduce历史记录

时间:2013-10-28 21:38:32

标签: hadoop mapreduce mrjob

我正在使用TestDFSIO和TeraSort基准测试工具执行几项Hadoop测试。我基本上使用不同数量的datanode进行测试,以评估处理能力和datanode可扩展性的线性度。

在上述过程中,我显然已经多次重启所有Hadoop环境。每次重新启动Hadoop时,都会删除所有MapReduce作业,并从“job_2013 * _0001”再次启动作业计数器。出于比较原因,对我来说,保持我之前启动的所有MapReduce作业非常重要。所以,我的问题是:

¿如何避免Hadoop在重启后删除所有MapReduce作业历史记录? ¿Hadoop环境重启后是否有一些属性可以控制删除作业?

谢谢!

1 个答案:

答案 0 :(得分:0)

重新启动hadoop后,MR作业历史日志不会被正确删除,新作业将从* _0001计算,但只有在hadoop重启后启动的新作业才会显示在资源管理器Web门户上。事实上,yarn default有两个与日志相关的设置:

# this is where you can find the MR job history logs
yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 

# this is how long the history logs will be retained
yarn.nodemanager.log.retain-seconds = 10800

,默认的$ {yarn.log.dir}在$ HADOOP_HONE / etc / hadoop / yarn-env.sh中定义。

YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"
顺便说一句,如果您使用的是Hadoop 1.X,也可以在mapred-env.sh中找到类似的设置