hadoop - 在MapReduce作业中使用之前，Amazon EMR框架是否会从S3复制数据 - Thinbug

在MapReduce作业中使用之前，Amazon EMR框架是否会从S3复制数据

时间：2013-10-15 04:25:48

标签： hadoop amazon-s3 hdfs amazon-emr

我注意到，当输入位置是S3中的文件时，调用EMR作业和数据的mapreduce处理的实际开始之间存在很长的等待时间。我的问题是，EMR是否直接运行驻留在本机S3文件系统中的数据，还是将数据复制到配置的EC2机器的HDFS集群（在EMR集群中），在这种情况下，它将需要大量的数据复制数据的时间？

1 个答案:

答案 0 :(得分：2)

S3是一种存储机制，所以绝对不能处理数据。因此，在处理MR作业之前，必须将数据复制到EC2节点。