使用s3-dist-cp时是否可以指定mappers-reducer的数量?

时间:2019-07-05 10:00:19

标签: amazon-web-services amazon-s3 amazon-emr distcp s3distcp

我正在尝试使用s3-distcp将数据从EMR群集复制到S3。是否可以指定比默认值大的减速器数量,以加快加工速度?

2 个答案:

答案 0 :(得分:1)

要设置减速器数量,可以使用类似于以下内容的属性mapreduce.job.reduces

s3-dist-cp -Dmapreduce.job.reduces=10 --src hdfs://path/to/data/ --dest s3://path/to/s3/

答案 1 :(得分:0)

使用S3DistCp,您可以将大量数据从Amazon S3有效复制到HDFS,然后可以通过Amazon EMR集群中的后续步骤对其进行处理。

您可以通过将S3DistCp添加为现有EMR集群中的步骤来调用它。您可以使用控制台,AWS CLI或API将步骤添加到启动时的集群或运行中的集群。

因此,您可以在创建EMR群集或y ou can resize existing cluster期间控制工作人员的数量。您可以在EMR docs中检查确切的步骤。