选择15分钟窗口的数据 - PostgreSQL

时间:2013-07-07 20:19:05

标签: postgresql histogram window-functions

是的,所以我在PostgreSQL中有一个这样的表:

timestamp              duration

2013-04-03 15:44:58    4
2013-04-03 15:56:12    2
2013-04-03 16:13:17    9
2013-04-03 16:16:30    3
2013-04-03 16:29:52    1
2013-04-03 16:38:25    1
2013-04-03 16:41:37    9
2013-04-03 16:44:49    1
2013-04-03 17:01:07    9
2013-04-03 17:07:48    1
2013-04-03 17:11:00    2
2013-04-03 17:11:16    2
2013-04-03 17:15:17    1
2013-04-03 17:16:53    4
2013-04-03 17:20:37    9
2013-04-03 17:20:53    3
2013-04-03 17:25:48    3
2013-04-03 17:29:26    1
2013-04-03 17:32:38    9
2013-04-03 17:36:55    4

我想得到以下输出:

timestampwindowstart = 2013-04-03 15:44:58

duration    count
1           0
2           1
3           0
4           1
9           0

timestampwindowstart = 2013-04-03 15:59:58

duration    count
1           0
2           0
3           0
4           0
9           1

timestampwindowstart = 2013-04-03 16:14:58

duration    count
1           1
2           0
3           1
4           0
9           0

timestampwindowstart = 2013-04-03 16:29:58

duration    count
1           2
2           0
3           0
4           0
9           1

等...

所以基本上它会循环显示15分钟窗口中的时间戳,并输出不同的持续时间值及其频率(计数)。 timestampwindowstart值是窗口的最早时间戳(即timestampwindowfinish = timestampwindowstart + 15分钟)

这样我就可以绘制15分钟的间隔直方图......

我已经尝试过阅读,但是对我来说有点复杂,我没有太多时间......

感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

快速而肮脏的方式:http://sqlfiddle.com/#!1/bd2f6/21我将我的专栏tstamp命名为timestamp

with t as (
  select
    generate_series(mitstamp,matstamp,'15 minutes') as int,
    duration
  from
    (select min(tstamp) mitstamp, max(tstamp) as matstamp from tmp) a,
    (select duration from tmp group by duration) b
)

select
  int as timestampwindowstart,
  t.duration,
  count(tmp.duration)
from
   t
   left join tmp on 
         (tmp.tstamp >= t.int and 
          tmp.tstamp < (t.int + interval '15 minutes') and 
          t.duration = tmp.duration)
group by
  int,
  t.duration
order by
  int,
  t.duration

简要说明:

  1. 计算最小和最大时间戳
  2. 在最小和最大
  3. 之间生成15分钟的间隔
  4. 具有唯一持续时间值
  5. 的交叉连接结果
  6. 左连接原始数据(左连接很重要,因为这将在输出中保留所有可能的组合,并且在给定时间间隔内不存在持续时间的null
  7. 汇总数据。 count(null)=0
  8. 如果你有更多的表,并且应该在他们的联合上应用算法。假设我们有三个表tmp1, tmp2, tmp3,其中包含tstamp列和duration列。我们可以扩展以前的解决方案:

    with 
    
    tmpout as (
      select * from tmp1 union all
      select * from tmp2 union all
      select * from tmp3
    )
    
    ,t as (
      select
        generate_series(mitstamp,matstamp,'15 minutes') as int,
        duration
      from
        (select min(tstamp) mitstamp, max(tstamp) as matstamp from tmpout) a,
        (select duration from tmpout group by duration) b
    )
    
    select
      int as timestampwindowstart,
      t.duration,
      count(tmp.duration)
    from
       t
       left join tmpout on 
             (tmp.tstamp >= t.int and 
              tmp.tstamp < (t.int + interval '15 minutes') and 
              t.duration = tmp.duration)
    group by
      int,
      t.duration
    order by
      int,
      t.duration
    

    你应该知道PostgreSQL中的with子句。对于PostgreSQL中的任何数据分析来说,它都是非常宝贵的概念。