应用错误收集

Hadoop Dev环境的数据集？

时间：2016-01-11 22:20:31

标签： hadoop bigdata

我正在学习hadoop。我想了解如何为Dev，Test和Pre-prod等环境设置数据集/数据库。当然在PROD环境中，我们将处理数TB的数据，但是将tera字节的数据复制到其他环境，我认为不可能。

对于其他环境，如何复制数据集？只会在这些非生产环境中加载和使用某些数据部分？如果是这样的话怎么办？

1 个答案:

答案 0 :(得分：0)

如何复制，基本上与名称节点和datanodrs相关的hdfs的概念应该给你一些研究。当您创建一个新文件时，它将转到名称节点，该节点更新元数据并在您写入时为您提供空白块ID，它会根据机架位置找到最近的数据节点。一旦完成复制，它就会复制到第一个数据节点。 Datanode首先将它复制到下一秒然后三分之一，然后是第四。它基本上只是在第一个节点上重新复制，而hdfs框架将处理下一个先前的复制