增加SequenceFileInputFormat的拆分数

时间:2014-07-19 01:05:22

标签: java performance hadoop mapreduce sequencefile

我使用 SequenceFileInputFormat 作为我的地图输入,其中键是文本,值是文本。 106个文件每个都在500 MB到750 MB之间。我看到了我的日志,它说那里分裂的数量是290

我想知道是否有办法增加拆分次数,因为我的工作需要花费大量时间才能运行。谢谢您的帮助。

1 个答案:

答案 0 :(得分:1)

您可以使用mapreduce.input.fileinputformat.split.maxsize属性通过减少每个拆分的最大大小来增加拆分数。要设置的值是以字节为单位的最大拆分大小。