如何将时间列分为5秒间隔并使用Presto计算行数?

时间:2017-11-02 01:08:32

标签: sql apache-zeppelin presto

我正在使用Presto和Zeppelin。有很多原始数据。 我必须总结那些数据。

我想每5秒组一次。

serviceType        logType     date
------------------------------------------------------
service1           log1        2017-10-24 23:00:23.206
service1           log1        2017-10-24 23:00:23.207
service1           log1        2017-10-24 23:00:25.206
service2           log1        2017-10-24 23:00:24.206
service1           log2        2017-10-24 23:00:27.206
service1           log2        2017-10-24 23:00:29.302

然后是结果

serviceType        logType     date                       cnt
--------------------------------------------------------------
service1           log1        2017-10-24 23:00:20          2
service2           log1        2017-10-24 23:00:20          1
service1           log1        2017-10-24 23:00:25          1
service1           log2        2017-10-24 23:00:25          2

首先,我必须将存储的数据迁移到新表。

第二,我必须对数据进行分组并实时保存到新表中。

编写sql脚本很难。

请帮帮我。

我是否必须使用python解释器?

1 个答案:

答案 0 :(得分:3)

你可以

  1. 使用timestamp
  2. 丢弃date_trunc的毫秒部分
  3. 您可以使用timestamp
  4. ts - interval '1' second * (second(ts) % 5)无毫秒部分舍入到5秒

    将这个放在一起的例子:

    presto> SELECT ts_rounded, count(*)
         -> FROM (
         ->     SELECT date_trunc('second', ts) - interval '1' second * (second(ts) % 5) AS ts_rounded
         ->     FROM (VALUES timestamp '2017-10-24 23:01:20.206',
         ->         timestamp '2017-10-24 23:01:23.206',
         ->         timestamp '2017-10-24 23:01:23.207',
         ->         timestamp '2017-10-24 23:01:26.206') AS t(ts)
         -> )
         -> GROUP BY ts_rounded ORDER BY ts_rounded;
           ts_rounded        | _col1
    -------------------------+-------
     2017-10-24 23:01:20.000 |     3
     2017-10-24 23:01:25.000 |     1
    (2 rows)