优化Hive查询以避免超出GC超时异常

时间:2012-08-31 01:51:07

标签: exception optimization garbage-collection hive

我正在Hive中运行一个非常直接的查询,但我不断超出GC超时和OOM错误,

查询格式为

选择a.field1 - 选择约30个cols! 来自table1 t1 在t1.field2 = t2.field2和t1.date ='20120801'上连接table2 t2 在t1.field7 = t2.field2和t1.date ='20120801'上加入table2 t3

我从此查询中选择了大约30个字段。 table1按日期分区,包含大约300,000条记录。 table2包含大约100条记录。

我可以通过某种方式优化此查询吗?

1 个答案:

答案 0 :(得分:0)

一直在玩Mapjoin几个小时,终于让它上班了

添加了提示SELECT / + MAPJOIN(t2,t3) /

查询现在可以在几秒钟内运行