用时间序列汇总数据填写空白

时间:2013-07-28 15:44:31

标签: sql postgresql group-by time-series

我正试图为“每隔 n 分钟从传感器接收的数据”绘制一个简单的(读取:快速)迷你线

数据非常简单,它是给定时间戳的一个或多个读数,由传感器的mac地址标识:

# SELECT mac, ants, read_at FROM normalized_readings LIMIT 10;
        mac        | ants |         read_at
-------------------+------+-------------------------
 f0:d1:a9:a0:fe:e7 |  -87 | 2013-07-14 09:25:15.215
 74:de:2b:fa:ca:cf |  -69 | 2013-07-14 09:25:14.81
 74:de:2b:fa:ca:cf |  -69 | 2013-07-14 09:25:14.81
 74:de:2b:fa:ca:cf |  -69 | 2013-07-14 09:25:15.247
 38:aa:3c:8f:a0:4f |  -85 | 2013-07-14 09:25:21.672
 38:aa:3c:8f:a0:4f |  -87 | 2013-07-14 09:25:21.695
 60:67:20:c8:bc:80 |  -83 | 2013-07-14 09:25:26.73
 60:67:20:c8:bc:80 |  -81 | 2013-07-14 09:25:26.737
 f0:d1:a9:a0:fe:e7 |  -83 | 2013-07-14 09:25:36.207
 f0:d1:a9:a0:fe:e7 |  -91 | 2013-07-14 09:26:07.77
(10 rows)

我正试图想出类似的东西:

# SELECT 
    mac, date_trunc('minute', read_at) AS minute, COUNT(*) 
  FROM 
    normalized_readings
  GROUP BY mac, minute LIMIT 10;
        mac        |       minute        | count
-------------------+---------------------+-------
 00:08:ca:e6:a1:86 | 2013-07-14 16:22:00 |     6
 00:10:20:56:7c:e2 | 2013-07-27 05:29:00 |     1
 00:21:5c:1c:df:7d | 2013-07-14 09:44:00 |     1
 00:21:5c:1c:df:7d | 2013-07-14 09:46:00 |     1
 00:21:5c:1c:df:7d | 2013-07-14 09:48:00 |     1
 00:24:d7:b3:31:04 | 2013-07-15 06:51:00 |     1
 00:24:d7:b3:31:04 | 2013-07-15 06:53:00 |     3
 00:24:d7:b3:31:04 | 2013-07-15 06:59:00 |     3
 00:24:d7:b3:31:04 | 2013-07-15 07:02:00 |     3
 00:24:d7:b3:31:04 | 2013-07-15 07:06:00 |     3
(10 rows)

但请注意所有空白期间,我希望能够在这些时间段内提取0,以表明传感器没有记录数据。

可能我只想要显示最后12/24小时的数据,所以我想我可以通过选择从NOW() 12/24小时到过去的人工日期来强制执行此操作,并且对于每个分辨率(可能是1或5分钟),我必须查询读数表,并查询读数的数量,但这听起来效率很低。

有没有办法在没有暴力破坏的情况下做我想做的事情?据我所知,当我通过选择分钟进行分组时,我会自动从错误的一方来看这个?

1 个答案:

答案 0 :(得分:1)

对于此类查询,您需要一个生成“mac”和“minutes”的所有组合的驱动程序表。 Postgres有一个很好的函数generate_series()来获取每分钟的计数器。

所以,我们的想法是从所有的mac开始,每分钟生成一个系列。然后使用驱动程序表中的left outer join为每个值获取一行。

with t as (
      SELECT mac, date_trunc('minute', read_at) AS minute, COUNT(*) as cnt
      FROM normalized_readings
      GROUP BY mac, minute
      LIMIT 10
     )
select driver.mac, driver.minute, coalesce(cnt, 0)
from (select mac, minminute,
             minminute + cast(cast(generate_series(0,
                                                   cast(extract(epoch from maxminute - minminute)/60 as int)
                                                  ) as character varying
                                  )||' minute' as interval
                             ) as minute
      from (select mac, min(minute) as minminute, max(minute) as maxminute
            from t
            group by mac
           ) macs
     ) driver left outer join
     t
     on t.mac = driver.mac and
        t.minute = driver.minute

SQL小提琴是here

我能看到的唯一问题是你如何获得原始数据 - t的定义。我按照问题中的例子。但是,它实际上没有意义。您的limit没有order by。你应该输入适当的order by