请允许我提供一个场景:
hadoop jar test.jar Test inputFileFolder outputFileFolder
其中
test.jar
按键,时间和地点对信息进行排序inputFileFolder
包含多个.gz文件,每个.gz文件大约为10GB outputFileFolder
包含一堆.gz文件我的问题是哪个是在inputFileFolder中处理那些.gz文件的最佳方法?谢谢!
答案 0 :(得分:1)
Hadoop会自动检测并读取.gz文件。但是,由于.gz不是可拆分压缩格式,因此每个文件将由单个映射器读取。最好的办法是使用另一种格式,如Snappy,或者解压缩,拆分和重新压缩成较小的块大小的文件。