AWS ElasticMapReduce可以将S3文件夹作为输入吗?

时间:2015-07-27 08:54:18

标签: python-2.7 amazon-web-services amazon-s3 amazon-emr

我正在尝试运行mapreduce作业,其中输入分散在S3中的catch-all存储桶下面的不同文件夹中。

我最初的方法是为每个输入文件创建一个集群,并为每个输入文件写入单独的输出。但是,这需要启动超过200多个集群,我认为这不是最有效的方式。

我想知道是否可以不指定文件作为EMR的输入,指定其子文件夹包含所有输入文件的文件夹。

谢谢!

1 个答案:

答案 0 :(得分:0)

是的,您可以指定其子文件夹包含所有输入文件的文件夹。但是在代码中,您需要确保函数在输入中查找子文件夹,而不是仅将主文件夹作为输入。