应用错误收集

Hadoop中没有经典的备份和恢复功能。这有几个原因：

Hadoop使用数据复制而不是备份。在内部，它会为每个数据块创建多个副本（默认情况下为3个副本）。它还有一个名为'distcp'的函数，它允许您在集群之间复制数据副本。这是大多数Hadoop运营商通常为“备份”所做的事情。

一些公司，如Cloudera，正在将distcp工具整合到为其分发Hadoop创建“备份”或“复制”服务。它针对HDFS中的特定目录进行操作，并将其复制到另一个群集。

如果您真的想为Hadoop创建备份服务，可以自己手动创建一个。您需要一些访问数据的机制（NFS网关，webFS等），然后可以使用磁带库，VTL等来创建备份。