hadoop 2.2.0中的数据备份和恢复

时间:2014-03-15 08:24:34

标签: hadoop hadoop2

我是Hadoop的新手,对Hadoop Administration非常感兴趣,所以我尝试在Ubuntu 12.04中安装Hadoop 2.2.0作为伪分布式模式并成功安装并运行一些示例jar文件,现在我正在尝试进一步学习,尝试现在可以学习数据备份和恢复部分,任何人都可以告诉我们在hadoop 2.2.0中重新备份和恢复数据的方法,还请为Hadoop管理提供任何好书以及学习Hadoop管理的步骤。

先谢谢。

1 个答案:

答案 0 :(得分:1)

Hadoop中没有经典的备份和恢复功能。这有几个原因:

  • HDFS使用块级复制通过冗余进行数据保护。
  • HDFS大规模扩展,备份到磁盘而不是磁带变得更经济。
  • “大数据”的大小无法轻易备份。

Hadoop使用数据复制而不是备份。在内部,它会为每个数据块创建多个副本(默认情况下为3个副本)。它还有一个名为'distcp'的函数,它允许您在集群之间复制数据副本。这是大多数Hadoop运营商通常为“备份”所做的事情。

一些公司,如Cloudera,正在将distcp工具整合到为其分发Hadoop创建“备份”或“复制”服务。它针对HDFS中的特定目录进行操作,并将其复制到另一个群集。

如果您真的想为Hadoop创建备份服务,可以自己手动创建一个。您需要一些访问数据的机制(NFS网关,webFS等),然后可以使用磁带库,VTL等来创建备份。