应用错误收集

多个小文件作为映射的输入减少

时间：2012-07-13 08:44:39

标签： file input hadoop mapreduce mapper

我有很多小文件，比如超过20000。

我想节省在mapper初始化上花费的时间，那么是否可以只使用500个mapper，每个处理40个小文件作为其输入？

如果可能的话，我需要有关如何实现这种输入格式的指导，谢谢！

BTW，我知道我应该合并这些小文件，这一步也是必需的。

1 个答案:

答案 0 :(得分：3)

可以使用CombineFileInputFormat。它位于old和new MR API中。关于如何使用它，这是一个很好的blog entry。