我正在尝试运行mapreduce作业,其中输入分散在S3中的catch-all存储桶下面的不同文件夹中。
我最初的方法是为每个输入文件创建一个集群,并为每个输入文件写入单独的输出。但是,这需要启动超过200多个集群,我认为这不是最有效的方式。
我想知道是否可以不指定文件作为EMR的输入,指定其子文件夹包含所有输入文件的文件夹。
谢谢!
答案 0 :(得分:0)
是的,您可以指定其子文件夹包含所有输入文件的文件夹。但是在代码中,您需要确保函数在输入中查找子文件夹,而不是仅将主文件夹作为输入。