应用错误收集

HIVE-大型查询会失去并行性

时间：2019-01-16 20:36:08

标签： hive

在一些查询或查询查询组合（几个步骤）上，我注意到起初我有很多映射作业（因为数据位于多个分区上），然后逐渐减少

例如步骤1：10万张地图，减少2000张步骤2：2000张地图，减少100张第3步：100张地图，减少5张

这是合乎逻辑的并且是预期的，问题是最终我只能得到很少的非常大的任务，并且基本上没有并行性-有时我甚至只能完成1个任务

我的问题是我该如何调整？

我们想要更快，但是我们也不想以并行性的名义创建太多任务以致于效率低下

我无法弄清楚

谢谢

0 个答案:

没有答案