标签: hadoop mapreduce
我想控制每个映射器处理的记录数。
在我的群集中,一些数据节点拥有更多的记录。因此,在该节点上创建的映射器处理更多否。的记录。所以这些映射器运行时间很长。
映射器处理时间不依赖于我的记录大小。记录数决定时间。那么有没有办法控制每个映射器处理的记录数量?
答案 0 :(得分:0)
您可以提供 - D mapreduce.input.fileinputformat.split.maxsize =某个数字。您可以通过了解每个映射器应处理多少记录以及大小合适的数量来获得此数字。