复制因子

时间:2013-10-03 17:20:28

标签: hadoop replication

我是Hadoop的新手,我想了解我们如何确定任何给定群集可以拥有的最高复制因子。我知道默认设置是3个副本,但是如果我有一个具有5个节点的集群,那么在这种情况下我可以使用的最高复制因子是什么。我们必须遵循一个公式来确定复制因子吗?

谢谢

3 个答案:

答案 0 :(得分:1)

您可以使用的最高复制因子是群集中节点数量的函数(正如@Tarik所说,您的群集中的节点不能有更多副本),您的预期用量(您计划了多少数据)存储)和你的集群的存储容量。

另一个SO question对容量和存储使用进行了一些计算。

答案 1 :(得分:0)

显然,您不能拥有比节点更多的副本,因为在同一节点上存储两个副本是没用的。在我看来,它是上限。

答案 2 :(得分:0)

在Hadoop环境中,默认复制因子是3个从属计算机的3或更多。这是一个简单的公式,即'N'复制因子='N'从节点。这是有关复制http://commandstech.com/replication-factor-in-hadoop/

的更多信息