我想按日期对这些记录进行分组并计数。我正在hive_2.0上运行以下sql查询,
select TO_CHAR(date_time, "YYYY-MM-DD") as myDate , count(host) from wc_day13_1 group by myDate
此查询将永远执行。但是我正在运行的数据不是很大,转换为CSV时只有170 Mb。是什么原因以及如何解决这个问题??
更新: 以下查询运行速度很快。这意味着日期转换部分需要花费时间和资源。
select date_time , count(host) from wc_day13_1 group by date_time
我确实改变了将日期时间转换为日期的方式,
select CAST(date_time AS "DATE") AS DATE, count(host) from wc_day13_1 group by date_time