SQL频率分布查询以分组计数范围并包括0计数

时间:2012-03-13 01:50:02

标签: sql postgresql group-by aggregate-functions

假设:

table 'thing':

age
---
3.4
3.4
10.1
40
45
49

我想计算每个10年范围内的事物数量,例如,

age_range | count
----------+-------
        0 |     2
        10|     1
        20|     0
        30|     0
        40|     3

此查询接近:

SELECT FLOOR(age / 10) as age_range, COUNT(*)
FROM thing
GROUP BY FLOOR(age / 10) ORDER BY FLOOR(age / 10);

输出:

 age_range | count 
-----------+-------
         0 |     1
         1 |     2
         4 |     3

但是,它没有显示具有0计数的范围。如何修改查询以便它还显示0计数之间的范围?

我发现类似的堆栈流问题用于计数范围,一些用于0计数,但它们涉及必须指定每个范围(将范围硬编码到查询中,或将范围放在表中)。我更喜欢使用像上面那样的通用查询,我不必明确指定每个范围(例如,0-10,10-20,20-30,...)。我正在使用PostgreSQL 9.1.3。

有没有办法修改上面的简单查询以包含0计数?

相似:
Oracle: how to "group by" over a range?
Get frequency distribution of a decimal range in MySQL

2 个答案:

答案 0 :(得分:11)

generate_series救援:

select 10 * s.d, count(t.age)
from generate_series(0, 10) s(d)
left outer join thing t on s.d = floor(t.age / 10)
group by s.d
order by s.d

使用单独的查询来确定generate_series的上限应该是微不足道的,我只使用10作为占位符。

此:

generate_series(0, 10) s(d)

本质上生成一个名为s的内联表,其中包含一列d,其中包含0到10(含)的值。

如果需要,您可以将两个查询(一个用于计算范围,一个用于计算计数)包装到函数中。

答案 1 :(得分:1)

你需要一些方法来发明年龄范围表。行号通常很好用。在大桌子上做笛卡尔产品以获得大量数字。

WITH RANGES AS (
SELECT (rownum - 1) * 10 AS age_range
  FROM ( SELECT row_number() OVER() as rownum
           FROM pg_tables
       ) n
      ,( SELECT ceil( max(age) / 10 )  range_end
           FROM thing
       ) m
  WHERE  n. rownum <= range_end
)
SELECT r.age_range, COUNT(t.age) AS count
  FROM ranges r
  LEFT JOIN thing t ON r.age_range = FLOOR(t.age / 10) * 10
  GROUP BY r.age_range
  ORDER BY r.age_range;
编辑:mu太短有一个更优雅的答案,但如果你没有db上的generate_series函数,......:)