多个小文件作为映射的输入减少

时间:2012-07-13 08:44:39

标签: file input hadoop mapreduce mapper

我有很多小文件,比如超过20000。

我想节省在mapper初始化上花费的时间,那么是否可以只使用500个mapper,每个处理40个小文件作为其输入?

如果可能的话,我需要有关如何实现这种输入格式的指导,谢谢!

BTW,我知道我应该合并这些小文件,这一步也是必需的。

1 个答案:

答案 0 :(得分:3)

可以使用CombineFileInputFormat。它位于oldnew MR API中。关于如何使用它,这是一个很好的blog entry