在下面的连接中编写时,Hive查询会出现偏斜:

时间:2017-01-03 02:09:34

标签: hadoop hive

Select a.drr1,b.drr1 from a left join b on a.drr1=b.drr1

a中的重复drr1个值,而表b具有唯一的drr1值。这是一个多对一的蜂巢加入。

由于表a非常大且重复值很多,因此需要很长时间。 关于如何在蜂巢中解决这个问题的任何指示。

1 个答案:

答案 0 :(得分:0)

执行类似

的操作
SELECT DISTINCT * FROM A LEFT JOIN B ON A.drr1=B.drr1;