我正在使用Hive 1.2.0,所以不能在over子句中使用聚合函数,如:
SELECT rank() OVER (ORDER BY sum(b))
因为它只能从hive 2.1开始。
我试图在没有此功能的情况下解决我的问题。
例如,我有一个这样的数据集,其中每一行代表从store_id中的client_id购买:
| Date |CLIENT_ID| STORE_ID |
| 2017-01-01 | 1 | S1 |
| 2017-01-02 | 1 | S2 |
| 2017-01-03 | 1 | S2 |
| 2017-01-04 | 1 | S3 |
我想得到每个日期,每个客户的家庭商店,这是他去年购买最多的商店。如果2个商店具有相同的值,我们会采用最新的商店。
这个例子的结果是:
| Date |CLIENT_ID| STORE_ID | HOMESTORE |
| 2017-01-01 | 1 | S1 | S1 | -- S1 Because there is no other store before
| 2017-01-02 | 1 | S2 | S2 | -- 1 purchase in S1 and S2 but S2 is the most recent
| 2017-01-03 | 1 | S2 | S2 | -- 2 purchases in S2
| 2017-01-04 | 1 | S3 | S2 | -- 2 purchases in S2 vs 1 in S3
使用over子句中的聚合函数,可以用这样的东西来解决(虽然缺少1年条款):
SELECT
LAST_VALUE(STORE_ID) OVER(
PARTITION BY CLIENT_ID
ORDER BY COUNT(STORE_ID) ASC
RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) as homestore
你知道如何解决这个问题吗?