hadoop - Hadoop备份和恢复工具和指南

时间：2015-05-14 09:42:39

标签： hadoop

我是hadoop的新手，需要了解有关备份和恢复的详细信息。我修改了oracle备份和恢复它会帮助hadoop吗？我应该从哪里开始

答案 0 :(得分：5)

备份和恢复有几个选项。正如s.singh指出的那样，数据复制不是DR。

HDFS支持快照。这可以用于防止用户错误，恢复文件等。话虽如此，在Hadoop集群完全失败的情况下，这不是DR。（http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html）

您最好的选择是保留异地备份。这可以是另一个Hadoop集群，S3等，可以使用distcp执行。（http://hadoop.apache.org/docs/stable1/distcp2.html），（https://wiki.apache.org/hadoop/AmazonS3）

的Slideshare

答案 1 :(得分：2)

Hadoop旨在处理具有1000个节点的大型集群。数据丢失可能更少。您可以增加复制因子，以将数据复制到群集中的多个节点中。

对于Namenode日志备份，您可以使用secondary namenode或Hadoop High Availability

辅助名称节点

辅助名称节点将备份namnode日志。如果namenode失败，那么您可以从辅助名称节点恢复namenode日志（其中包含数据块信息）。

高可用性

高可用性是在群集中运行多个名称节点的新功能。一个名称节点将处于活动状态，另一个名称节点将处于待机状态。日志保存在namenode中。如果一个namenode失败，那么另一个名称节点变为活动状态，它将处理该操作。

但在大多数情况下，我们还需要考虑备份和灾难恢复。请参考@ brandon.bell的回答。

答案 2 :(得分：0)

您可以将DataTorrent上的HDFS同步应用程序用于DR用例，以便将大量数据从一个HDFS群集备份到另一个HDFS群集。

它使用Apache Apex作为处理引擎。

答案 3 :(得分：0)

从官方文档网站开始：HdfsUserGuide

查看以下SE帖子：

关于Recovery_Mode的文档页面：

通常，您将配置多个元数据存储位置。然后，如果一个存储位置已损坏，您可以从其他存储位置读取元数据。

但是，如果可用的唯一存储位置已损坏，您可以做些什么？在这种情况下，有一个名为恢复模式的特殊NameNode启动模式，可以让您恢复大部分数据。

您可以像恢复模式一样启动NameNode： namenode -recover