标签: hadoop amazon-s3 mapreduce hdfs
我有大约500万个小型(800kB)文件存储在AWS S3上。我想将它们合并成每个〜100MB的较大文件,因为对500万个小文件进行地图缩小会降低性能。
合并这些文件的好方法是什么?我想快速有效地做到这一点。我愿意使用S3 API的MapReduce来完成所有工作。