标签: hive
在一些查询或查询查询组合(几个步骤)上,我注意到起初我有很多映射作业(因为数据位于多个分区上),然后逐渐减少
例如 步骤1:10万张地图,减少2000张 步骤2:2000张地图,减少100张 第3步:100张地图,减少5张
这是合乎逻辑的并且是预期的,问题是最终我只能得到很少的非常大的任务,并且基本上没有并行性-有时我甚至只能完成1个任务
我的问题是我该如何调整?
我们想要更快,但是我们也不想以并行性的名义创建太多任务以致于效率低下
我无法弄清楚
谢谢