这是问题所在。
我正在尝试从Hive中的压缩ORC表中读取数据,但是YARN无法确定正确的映射器数量,因为它使用压缩数据大小的值进行计算而不是原始值。这是一个问题,因为我们只有18个映射器用于大约100 GB的数据集。
使用hive.exec.reducers.bytes.per.reducer可以帮助增加减少数量。有没有办法获得更多的地图制作者?
提前致谢!
答案 0 :(得分:0)
如果您使用以下配置设置
set mapreduce.input.fileinputformat.split.maxsize=100000;
set mapreduce.input.fileinputformat.split.minsize=100000;
如果你减少最大值,你应该得到更多的映射器。我认为无论如何都应该有效!