应用错误收集

如何在S3上合并数百万个小的（<1MB）文件？

时间：2018-09-21 00:47:37

标签： hadoop amazon-s3 mapreduce hdfs

我有大约500万个小型（800kB）文件存储在AWS S3上。我想将它们合并成每个〜100MB的较大文件，因为对500万个小文件进行地图缩小会降低性能。

合并这些文件的好方法是什么？我想快速有效地做到这一点。我愿意使用S3 API的MapReduce来完成所有工作。

0 个答案:

没有答案