Hive查询 - 从每个组中获取多个字段的最大值和总和

时间:2018-02-09 23:10:04

标签: sql hadoop hiveql

我有一张表格如下:

id | most_recent_run  | flag1 | flag2
---+------------------+-------+------
1  | 2017-01-01 10:40 | 0     | 1
1  | 2017-01-01 18:30 | 1     | 1 
2  | 2017-02-28 04:30 | 1     | 0

我想查询此表,以便对于每个id,我得到max(most_recent_run)sum(flag1)sum(flag2)。这应该是查询结果:

id | max_most_recent_run | flag1_count | flag2_count
---+---------------------+-------------+------------
1  | 2017-01-01 18:30    | 1           | 2
2  | 2017-02-28 04:30    | 1           | 0

我尝试使用收集和排名函数的组合编写此查询,但我没有得到预期的结果。

非常感谢这方面的任何解释或指示。

谢谢!

1 个答案:

答案 0 :(得分:0)

您应该使用SQL group by语句,然后使用maxsum函数,

select id,
    max(most_recent_run) as max_most_recent_run,
    sum(flag1) as flag1_count,
    sum(flag2) as flag2_count
from my_table
group by id