我正在使用S3DistCp将内容从S3复制到Amazon EMR HDFS。对于某些工作,我的空间不足,并希望通过减少复制因素来解决这个问题。但我没有办法在工作层面实现这一目标。有人可以帮忙解决这个问题吗?
答案 0 :(得分:3)
您通常不希望逐个作业修改群集的复制因子。复制用于数据冗余(在发生故障的情况下)并提高性能(通过使数据更接近计算操作)。最好将群集保留在预定义的值。
默认情况下,Amazon EMR将1-3个核心节点的默认复制因子设置为1,将4-9个核心节点的值设置为2,将10+核心节点的值设置为3。
理论上你可以改变dfs.replication
设置,但它可能不是解决当前问题的最佳方法。