如何编写两个计数和蜂巢中的最新记录

时间:2014-11-17 02:43:47

标签: sql hive

我的数据格式是这样的

  

查询guid结果时间

我想写一个类似

的sql
select
   query,
   count(query),
   count(distinect guid),
   result 
from
   table 
group by
   query

第二列表示相同查询的数量,第三列表示不同guid的数量,第四列表示最新结果,而相同查询可能有多个结果,我们选择最新结果的时间。因为它的逻辑有点复杂,我怎么能写一个sql来做所有这些事情?

1 个答案:

答案 0 :(得分:0)

选择a.md5,a.cnt,a.wide,b.main_level(从md5选择md5,count(md5)cnt,count(distinct guid)wide,max(time)maxtime from hive group)a join h.b在a.maxtime = b.time;