我是hadoop的新手,需要了解有关备份和恢复的详细信息。我修改了oracle备份和恢复它会帮助hadoop吗?我应该从哪里开始
答案 0 :(得分:5)
备份和恢复有几个选项。正如s.singh指出的那样,数据复制不是DR。
HDFS支持快照。这可以用于防止用户错误,恢复文件等。话虽如此,在Hadoop集群完全失败的情况下,这不是DR。 (http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)
您最好的选择是保留异地备份。这可以是另一个Hadoop集群,S3等,可以使用distcp执行。 (http://hadoop.apache.org/docs/stable1/distcp2.html),(https://wiki.apache.org/hadoop/AmazonS3)
以下是Cloudera讨论DR(http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery)
的Slideshare答案 1 :(得分:2)
Hadoop旨在处理具有1000个节点的大型集群。数据丢失可能更少。您可以增加复制因子,以将数据复制到群集中的多个节点中。
对于Namenode日志备份,您可以使用secondary namenode或Hadoop High Availability
辅助名称节点
辅助名称节点将备份namnode日志。如果namenode失败,那么您可以从辅助名称节点恢复namenode日志(其中包含数据块信息)。
高可用性
高可用性是在群集中运行多个名称节点的新功能。一个名称节点将处于活动状态,另一个名称节点将处于待机状态。日志保存在namenode中。如果一个namenode失败,那么另一个名称节点变为活动状态,它将处理该操作。
但在大多数情况下,我们还需要考虑备份和灾难恢复。请参考@ brandon.bell的回答。
答案 2 :(得分:0)
您可以将DataTorrent上的HDFS同步应用程序用于DR用例,以便将大量数据从一个HDFS群集备份到另一个HDFS群集。
https://www.datatorrent.com/apphub/hdfs-sync/
它使用Apache Apex作为处理引擎。
答案 3 :(得分:0)
从官方文档网站开始:HdfsUserGuide
查看以下SE帖子:
Hadoop 2.0 data write operation acknowledgement
Hadoop: HDFS File Writes & Reads
Hadoop 2.0 Name Node, Secondary Node and Checkpoint node for High Availability
How does Hadoop Namenode failover process works?
关于Recovery_Mode的文档页面:
通常,您将配置多个元数据存储位置。然后,如果一个存储位置已损坏,您可以从其他存储位置读取元数据。
但是,如果可用的唯一存储位置已损坏,您可以做些什么?在这种情况下,有一个名为恢复模式的特殊NameNode启动模式,可以让您恢复大部分数据。
您可以像恢复模式一样启动NameNode: namenode -recover