标签: apache-spark mapreduce hdfs
在以下文件夹结构中,HDFS中有数百万个小文件。 月(1-12) 每月30个文件夹(天) 每天24个文件夹(小时) 每小时60个文件夹(分钟) 每分钟60个文件夹(秒)
我需要将所有这些递归文件夹中的小文件合并到一个位置中的单个或几个较大的文件中。我尝试了-getmerge命令,但是这花费了很多时间。我正在寻找mapreduce或spark的解决方案。