我正在尝试使用s3-distcp将数据从EMR群集复制到S3。是否可以指定比默认值大的减速器数量,以加快加工速度?
答案 0 :(得分:1)
要设置减速器数量,可以使用类似于以下内容的属性mapreduce.job.reduces
:
s3-dist-cp -Dmapreduce.job.reduces=10 --src hdfs://path/to/data/ --dest s3://path/to/s3/
答案 1 :(得分:0)
使用S3DistCp,您可以将大量数据从Amazon S3有效复制到HDFS,然后可以通过Amazon EMR集群中的后续步骤对其进行处理。
您可以通过将S3DistCp添加为现有EMR集群中的步骤来调用它。您可以使用控制台,AWS CLI或API将步骤添加到启动时的集群或运行中的集群。
因此,您可以在创建EMR群集或y ou can resize existing cluster期间控制工作人员的数量。您可以在EMR docs中检查确切的步骤。