减少/简化时间序列数据

时间:2012-05-24 22:21:47

标签: ruby-on-rails ruby performance postgresql graph-theory

我有时间序列数据,我正在寻求简化(在图形保持相同形状的同时减少点数)。例如,如果我有这个数据集:

Time: 1, Value: 5
Time: 6, Value: 5
Time: 11, Value: 5.1
Time: 12, Value: 5
Time: 20, Value: 5.2
Time: 22, Value: 6
Time: 23, Value: 10

容差为.5的简化版本类似于:

Time: 1, Value: 5
Time: 20, Value: 5.2
Time: 22, Value: 6
Time: 23, Value: 10

我知道用于GIS数据的Douglas-Peucker算法,但我不知道如何将它应用于时间序列数据,因为轴具有不同的单位。如果我能在数据库中完成所有这一切,那将是非常棒的。

2 个答案:

答案 0 :(得分:1)

我不知道内置函数。此查询可能会完成此任务:

WITH x AS (
    SELECT t, val
          ,@(lead(val) OVER w - val) AS delta1
          ,@(lag(val)  OVER w - val) AS delta2
    FROM   tbl
    WINDOW w AS (ORDER BY t)
    ORDER  BY t
    )
SELECT t, val
FROM   x
WHERE  delta1 > 0.2
   OR  delta2 > 0.2
   OR  delta1 IS NULL
   OR  delta2 IS NULL;

我在CTE中使用window functions lead() and lag()absolute value operator @来计算增量(应该是最快的)。

只保留那些至少有一个增量大于0.2的行(与您的示例匹配的任意阈值)。

第一行和最后一行是delta1delta2NULL(无前导/滞后行)的特殊情况。我们希望在任何情况下都包含这些行,因此我将NULL检查添加到最终的SELECT

生成您请求的结果。


另一种变体集中在方向变化的程度:

WITH x AS (
    SELECT t, val
          ,@(lead(val) OVER w + lag(val) OVER w - 2*val) AS deviate
    FROM   tbl
    WINDOW w AS (ORDER BY t)
    ORDER  BY t
    )
SELECT t, val, deviate
FROM   x
WHERE  deviate > 0.2
   OR  deviate IS NULL;

这应该更紧密地保持形状。此示例保留行Time: 12, Value: 5并避免您在注释中描述的效果。 (你在问题中的例子没有指出这个方向。)

答案 1 :(得分:1)

Ramer Douglas Peucker会在这里工作 - 单位应该是一个问题。