Hive在子查询中选择DISTINCT和GROUP BY

时间:2013-11-01 15:25:22

标签: hadoop

我正在运行查询,但我对HiveQL中的子查询概念有点困惑。我是Hive的新手,我已经做了很多阅读,但我仍然无法让它工作。

所以我有一个大表格,其中包含我感兴趣的created_datesize字段。所以我基本上想要在不同年份运行特定年份和组中创建的文件大小总和。

我当前的查询:

SELECT year(created_date), SUM(size) FROM <tablename> GROUP BY created_date

2001    2654567
2001    231818 
2001    1978222 
2002    7625332 
2002    6272829 
2003    2733792

这给了我一张表中所有年份的列表以及上面每年的总和,但我有一年的重复,这是我需要做SELECT DISTINCT年的子查询和总和的地方总计size

任何帮助都会很棒。

1 个答案:

答案 0 :(得分:0)

您可能想要尝试 GROUPING BY 年份(因为这是您选择的)。

SELECT year(created_date), SUM(size) FROM <tablename> GROUP BY year(created_date)