HIVE-大型查询会失去并行性

时间:2019-01-16 20:36:08

标签: hive

在一些查询或查询查询组合(几个步骤)上,我注意到起初我有很多映射作业(因为数据位于多个分区上),然后逐渐减少

例如 步骤1:10万张地图,减少2000张 步骤2:2000张地图,减少100张 第3步:100张地图,减少5张

这是合乎逻辑的并且是预期的,问题是最终我只能得到很少的非常大的任务,并且基本上没有并行性-有时我甚至只能完成1个任务

我的问题是我该如何调整?

我们想要更快,但是我们也不想以并行性的名义创建太多任务以致于效率低下

我无法弄清楚

谢谢

0 个答案:

没有答案