我正在学习hadoop。我想了解如何为Dev,Test和Pre-prod等环境设置数据集/数据库。 当然在PROD环境中,我们将处理数TB的数据,但是将tera字节的数据复制到其他环境,我认为不可能。
对于其他环境,如何复制数据集?只会在这些非生产环境中加载和使用某些数据部分?如果是这样的话怎么办?
答案 0 :(得分:0)
如何复制,基本上与名称节点和datanodrs相关的hdfs的概念应该给你一些研究。当您创建一个新文件时,它将转到名称节点,该节点更新元数据并在您写入时为您提供空白块ID,它会根据机架位置找到最近的数据节点。一旦完成复制,它就会复制到第一个数据节点。 Datanode首先将它复制到下一秒然后三分之一,然后是第四。它基本上只是在第一个节点上重新复制,而hdfs框架将处理下一个先前的复制