使用PostgreSQL9.2对非连续数据进行时间平均

时间:2014-02-17 04:38:12

标签: sql postgresql time-series scientific-computing group-by

我有多个1秒时间分辨率真实数据的数据集。这些数据通常会在仪器丢弃数据的时间序列中或在仪器关闭时产生间隙,从而导致数据集不完整(尽管仍然非常有用)。结果数据可能如下所示

Timestamp [timestamp] : datastream1 [double precision] : datastream2 [double precision] : etc
2011-01-01 00:00:01     153.256     1255.325 
2011-01-01 00:00:02     152.954     1254.288 
2011-01-01 00:00:03     151.738     1248.951 
2011-01-01 00:00:04     150.015     1249.185 

2011-01-01 00:10:08     179.132     1328.115
2011-01-01 00:10:09     178.051     1323.125
2011-01-01 00:10:10     180.870     1336.983

2011-01-04 09:19:02     152.198     1462.814
2011-01-04 09:19:03     158.014     1458.122
2011-01-04 09:19:04     156.070     1464.174

请注意:这些数据通常是连续的,但会有随机的空白,必须加以处理。

我需要编写代码来获取给定时间间隔的平均值和stdev,“timeInt”,它能够处理这些差距。例如,如果我想要10分钟的平均数据,我的所需输出将是:

Timestamp_10min   :   avg_data1   :   med_data1   :   count_data1

其中avg_data1是给定10分钟内所有数据点的平均值,count_data1将是计算该平均值时使用的点数(即如果没有丢失数据则为600,如果每秒都为300;点缺失等等)。

此代码需要处理任何所需的输入间隔(即x分钟,y天,z周,月,年等)。

目前我只能使用以下代码输出分钟平均值。

CREATE OR REPLACE VIEW "DATATABLE_MIN" AS
  SELECT MIN("DATATABLE"."Timestamp") AS "Timestamp_min",
        avg("DATATABLE"."datastream1") AS "datastream1_avg_min",
        stddev("DATATABLE"."datastream1") AS "datastream1_stdev_min",
        count("DATATABLE"."datastream1") AS "datastream1_avg_min"
      FROM "DATATABLE"
  GROUP BY to_char("DATATABLE"."Timestamp",'YYYY-MM-DD HH24:MI'::text);

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

要分组10分钟,您可以使用“纪元”来完成此操作:

  SELECT MIN(dt."Timestamp") AS "Timestamp_min",
         avg(dt."datastream1") AS "datastream1_avg_min",
         stddev(dt."datastream1") AS "datastream1_stdev_min",
         count(dt."datastream1") AS "datastream1_avg_min"
  FROM "DATATABLE" dt
  GROUP BY trunc(extract(epoch from dt."TimeStamp") / (60*10));

这是自过去固定时间以来的秒数。如果将它除以600,则得到10分钟的间隔数 - 这是聚合所需的数量。