如何有效地合并多个S3位置中存在的多个小文件

时间:2018-12-05 14:59:59

标签: amazon-web-services java-8 aws-lambda amazon-emr

我有一个用例,我们必须组合多个S3位置上存在的多个小文件(许多小于5MB)。我们尝试使用Java,EMR / spark来执行此操作,但是执行该任务所需的时间很长。例如,要合并单个位置上存在的7000个文件,spark花费了1.5到2分钟。我知道7000是一个很小的数字,而spark不是执行相同操作的理想解决方案。关于使用Java / aws技术解决我的用例的任何建议。

0 个答案:

没有答案