标签: hadoop amazon-s3 hdfs amazon-emr
我注意到,当输入位置是S3中的文件时,调用EMR作业和数据的mapreduce处理的实际开始之间存在很长的等待时间。我的问题是,EMR是否直接运行驻留在本机S3文件系统中的数据,还是将数据复制到配置的EC2机器的HDFS集群(在EMR集群中),在这种情况下,它将需要大量的数据复制数据的时间?
答案 0 :(得分:2)
S3是一种存储机制,所以绝对不能处理数据。因此,在处理MR作业之前,必须将数据复制到EC2节点。