我们有一个集群(* ambari集群有3台主机,3台工作机器)
名称节点设置在 master01和master03 Linux redhat machines 7.3版
我们注意到在群集重启(机器重启)后,我们无法在两台机器上启动名称节点服务( master01& master03 )
所以我们开始研究这个问题.....
令人惊讶的是,我们看到master01或master03机器上没有任何fsimage文件!
文件应位于文件夹下 - / data / var / hadoop / hdfs / namenode / current / 文件夹
所以在这个阶段我们陷入困境而没有工作集群
我的问题是
我们如何恢复/恢复文件(如果我们的机器上不存在)
我们需要采取哪些其他方法来恢复群集?
很大的问题 - 如何删除这些文件? ,
从可以删除这些文件的HDFS用户运行的任何已知的赞誉?或冒险使用fsimage文件?
最后一个非常重要的问题 - 我们如何在第二次避免这种情况?
背景 - 什么是fsimage文件?
fsimage - fsimage文件包含某个时间点文件系统的完整状态。为每个文件系统修改分配一个唯一的,单调增加的事务ID。 fsimage文件表示在对特定事务ID进行所有修改之后的文件系统状态。
来自其他工作集群的fsimage文件示例
# cd /data/var/hadoop/hdfs/namenode/current/
# du -sh * | grep fsimage
4.0K fsimage_0000000000000000000
4.0K fsimage_0000000000000000000.md5
12K fsimage_0000000000000008921
4.0K fsimage_0000000000000008921.md5