我有一个不同的hadoop安装的datanode,namenode和secondary namenode文件夹(包含所有数据或信息)。
我的问题是,你如何看到那里的内容或将其添加到本地HDFS以查看数据或信息。
有一种方法可以恢复它或其他东西,但我找不到任何有关它的信息。
文件夹树是这样的:
对于Namenode& SecondaryNamenode:
data/dfs/name
├── current
│ ├── VERSION
│ ├── edits_0000000000000000001-0000000000000000007
│ ├── edits_0000000000000000008-0000000000000000015
│ ├── edits_0000000000000000016-0000000000000000022
│ ├── edits_0000000000000000023-0000000000000000029
│ ├── edits_0000000000000000030-0000000000000000030
│ ├── edits_0000000000000000031-0000000000000000031
│ ├── edits_inprogress_0000000000000000032
│ ├── fsimage_0000000000000000030
│ ├── fsimage_0000000000000000030.md5
│ ├── fsimage_0000000000000000031
│ ├── fsimage_0000000000000000031.md5
│ └── seen_txid
对于Datanode:
data/dfs/data/
├── current
│ ├── BP-1079595417-192.168.2.45-1412613236271
│ │ ├── current
│ │ │ ├── VERSION
│ │ │ ├── finalized
│ │ │ │ └── subdir0
│ │ │ │ └── subdir1
│ │ │ │ ├── blk_1073741825
│ │ │ │ └── blk_1073741825_1001.meta
│ │ │ │── lazyPersist
│ │ │ └── rbw
│ │ ├── dncp_block_verification.log.curr
│ │ ├── dncp_block_verification.log.prev
│ │ └── tmp
│ └── VERSION
提前致谢。
答案 0 :(得分:1)
在不同Hadoop集群之间复制数据的标准解决方案是运行DistCp命令从源到目标执行所需文件的分布式副本。
假设其他群集不再运行,并且您只有这些备份文件,则可以通过将您拥有的文件复制到新Hadoop群集使用的目录中来进行还原。这些位置将在hdfs-site.xml的配置属性中指定:dfs.namenode.name.dir
用于NameNode(您的data / dfs / name目录)和dfs.datanode.data.dir
用于DataNode(您的data / dfs / data目录)
请注意,这可能仅在您从先前部署中运行相同版本的Hadoop时才有效。否则,可能存在兼容性问题。如果您尝试运行旧版本,则NameNode将无法启动。如果您尝试运行较新版本,则可能需要首先运行hdfs namenode -upgrade
来完成升级过程。
如果您只需要查看文件系统元数据,另一个选项是使用Offline Image Viewer和Offline Edits Viewer命令。这些命令可以分别解码和浏览fsimage和edits文件。