我正在Hive中运行一个非常直接的查询,但我不断超出GC超时和OOM错误,
查询格式为
选择a.field1 - 选择约30个cols! 来自table1 t1 在t1.field2 = t2.field2和t1.date ='20120801'上连接table2 t2 在t1.field7 = t2.field2和t1.date ='20120801'上加入table2 t3
我从此查询中选择了大约30个字段。 table1按日期分区,包含大约300,000条记录。 table2包含大约100条记录。
我可以通过某种方式优化此查询吗?
答案 0 :(得分:0)
一直在玩Mapjoin几个小时,终于让它上班了
添加了提示SELECT / + MAPJOIN(t2,t3) /
查询现在可以在几秒钟内运行