复制因子拇指规则

时间:2014-06-30 03:03:30

标签: hadoop

我知道您根据系统(事务,常规日志等)决定复制因子。但是,在决定复制因子时,我们可以遵循或考虑任何规则吗?

1 个答案:

答案 0 :(得分:0)

通常主要因素是

fault tolerance
Performance by reducing network traffic.

对于常见情况,当复制因子为3时,HDFS的放置策略是将一个副本放在本地机架中的一个节点上,另一个放置在不同(远程)机架中的节点上,而将最后一个放在不同节点上在同一个远程机架中。此策略可以减少机架间写入流量,从而提高写入性能。机架故障的可能性远小于节点故障的可能性;此策略不会影响数据可靠性和可用性保证。但是,它确实减少了读取数据时使用的聚合网络带宽,因为块只放在两个唯一的机架而不是三个。使用此策略时,文件的副本不会均匀分布在机架上。三分之一的副本位于一个节点上,三分之二的副本位于一个机架上,另外三个副本均匀分布在剩余的机架上。此策略可在不影响数据可靠性或读取性能的情况下提高写入性能。