Hive-跨映射器随机分配记录

时间:2018-08-30 18:55:49

标签: hive mappers

我正在寻找类似DISTRIBUTE BY的东西,但需要映射器而不是化简器。

我有一个正在运行并正在使用的仅地图转换作业

SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;

控制分配的映射器数量。总分区大小约为800MB,该作业确实分配了约400个映射器,这似乎与拆分后的大小一致。我遇到的问题是〜390个映射器在<1m中完成并显示已处理了0条记录。剩下的10个映射器将完成整个工作,并且需要几天的时间才能完成。

是否有一种方法可以强制映射器获取(大约)相等数量的记录,以免发生这种情况?

1 个答案:

答案 0 :(得分:0)

已修复。显然,要查询的表在HDFS中只有10个文件,因此只能使用10个映射器。