应用错误收集

AWS ElasticMapReduce可以将S3文件夹作为输入吗？

时间：2015-07-27 08:54:18

标签： python-2.7 amazon-web-services amazon-s3 amazon-emr

我正在尝试运行mapreduce作业，其中输入分散在S3中的catch-all存储桶下面的不同文件夹中。

我最初的方法是为每个输入文件创建一个集群，并为每个输入文件写入单独的输出。但是，这需要启动超过200多个集群，我认为这不是最有效的方式。

我想知道是否可以不指定文件作为EMR的输入，指定其子文件夹包含所有输入文件的文件夹。

谢谢！

1 个答案:

答案 0 :(得分：0)

是的，您可以指定其子文件夹包含所有输入文件的文件夹。但是在代码中，您需要确保函数在输入中查找子文件夹，而不是仅将主文件夹作为输入。