在MapReduce作业中使用之前,Amazon EMR框架是否会从S3复制数据

时间:2013-10-15 04:25:48

标签: hadoop amazon-s3 hdfs amazon-emr

我注意到,当输入位置是S3中的文件时,调用EMR作业和数据的mapreduce处理的实际开始之间存在很长的等待时间。我的问题是,EMR是否直接运行驻留在本机S3文件系统中的数据,还是将数据复制到配置的EC2机器的HDFS集群(在EMR集群中),在这种情况下,它将需要大量的数据复制数据的时间?

1 个答案:

答案 0 :(得分:2)

S3是一种存储机制,所以绝对不能处理数据。因此,在处理MR作业之前,必须将数据复制到EC2节点。