我正在使用使用Hive的第三方分析系统。基本上,给定一个事件表(evt)
userID (s) | date (UTC_timestamp) | monthCluster (month)
我想按月中的日期返回唯一用户ID列表。因此,对于11月份,输出将如下所示:
Date | userID
2013-11-01 | 000000
2013-11-01 | 000001
2013-11-02 | 000000
2013-11-02 | 000002
我无法正确使用
SELECT FROM_UNIXTIME(utc_timestamp, 'yyyy-MM-dd'), DISTINCT(s)
FROM evt
WHERE month = 201311
group by FROM_UNIXTIME(utc_timestamp, 'yyyy-MM-dd')
'导致区别和分组不完全好玩。
有什么建议吗?
答案 0 :(得分:0)
删除distinct并将s添加到group by应该为每个日期的“s”提供唯一的结果:
SELECT FROM_UNIXTIME(utc_timestamp, 'yyyy-MM-dd'), s
FROM evt
WHERE month = 201311
group by FROM_UNIXTIME(utc_timestamp, 'yyyy-MM-dd'), s