我正在寻找类似DISTRIBUTE BY
的东西,但需要映射器而不是化简器。
我有一个正在运行并正在使用的仅地图转换作业
SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;
控制分配的映射器数量。总分区大小约为800MB,该作业确实分配了约400个映射器,这似乎与拆分后的大小一致。我遇到的问题是〜390个映射器在<1m中完成并显示已处理了0条记录。剩下的10个映射器将完成整个工作,并且需要几天的时间才能完成。
是否有一种方法可以强制映射器获取(大约)相等数量的记录,以免发生这种情况?
答案 0 :(得分:0)
已修复。显然,要查询的表在HDFS中只有10个文件,因此只能使用10个映射器。