如何防止CDH中的Hue在重启时清除作业历史记录?

时间:2016-04-07 16:34:31

标签: hadoop apache-spark cloudera-cdh hue cloudera-manager

我已安装CDH 5.5.1 HueHadoopSparkHiveOozieYarn和{{ 1}}。

当我运行ZooKeeper作业或Spark作业时,MapReduce会在作业历史记录中显示问题。问题是,当我重新启动Hue服务(不是物理节点)时,它会删除重新启动之前的所有作业历史记录。

Job Browser screenshot

在Hadoop上,我怀疑有几个文件有关于任务的信息,可能是那些保存作业信息的文件。他们的hadoop路径是:

  • CDH
  • /tmp/logs/user/logs/

我在/user/history/done/2016/配置页面,Hue配置页面和一些配置文件中查找过但没有成功。我不知道如何防止这种删除。我错过了什么吗?

1 个答案:

答案 0 :(得分:1)

如果您真的只需要查看Hadoop集群上的作业历史记录,YARN History Server应该具有在集群上运行的所有YARN作业的历史记录。

Hue有一个针对您描述的问题的JIRA票证,标题为"作业浏览器应该与YARN历史服务器通信以显示旧作业":https://issues.cloudera.org/browse/HUE-2558。基本上,Hue需要与YARN历史服务器(而不仅仅是资源管理器)交谈以获取您正在寻找的信息。

好消息是该任务似乎已经完成并包含在Hue 4.0的发布中,该发布于2017年11月5日。坏消息是,Cloudera还没有完成该版Hue的发布。