标签: file input hadoop mapreduce mapper
我有很多小文件,比如超过20000。
我想节省在mapper初始化上花费的时间,那么是否可以只使用500个mapper,每个处理40个小文件作为其输入?
如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!
BTW,我知道我应该合并这些小文件,这一步也是必需的。
答案 0 :(得分:3)
可以使用CombineFileInputFormat。它位于old和new MR API中。关于如何使用它,这是一个很好的blog entry。