BigQuery:如何将分钟归因于个别日子

时间:2018-08-23 21:44:57

标签: sql google-bigquery

我在BigQuery中有一个具有以下架构的表:

deviceId int,
state int,
started timestamp,
duration minutes

此处的一行表示此设备在接下来的几分钟内具有从启动状态开始的状态。这里的时间可能要花几天时间。

现在我想每天知道该deviceId处于此状态的时间。因此,上表中的一行可以表示为以下列表:

deviceId int,
state int,
date date,
duration minutes

这是我正在玩的一些示例表:

WITH `temp.test` AS (
  SELECT 1 id, 1 state, TIMESTAMP('2018-08-17 10:40:00') ts, 120 minutes UNION ALL
  SELECT 1, 2, '2018-08-17 12:40:00', 120 UNION ALL
  SELECT 1, 1, '2018-08-17 14:40:00', 560 UNION ALL
  SELECT 2, 1, '2018-08-17 09:00:00', 180 UNION ALL
  SELECT 2, 2, '2018-08-17 12:00:00', 2940 
)

对于最后一行,其持续时间2940分钟,即49小时(2天零1个小时),因此需要将其转换为多行。我从此示例中获得的输出如下:

1, 1, 2018-08-17, 120
1, 2, 2018-08-17, 120
1, 1, 2018-08-17, 560
2, 1, 2018-08-17, 180
2, 2, 2018-08-17, 720 
2, 2, 2018-08-17, 1440
2, 2, 2018-08-17, 780 

是否有办法在SQL中实现此目标?还是应该编写UDF?谢谢!

1 个答案:

答案 0 :(得分:3)

以下示例适用于BigQuery标准SQL

#standardSQL
WITH `project.dataset.table` AS (
  SELECT 1 id, 1 state, TIMESTAMP('2018-08-17 10:40:00') ts, 120 minutes UNION ALL
  SELECT 1, 2, '2018-08-17 12:40:00', 120 UNION ALL
  SELECT 1, 1, '2018-08-17 14:40:00', 560 UNION ALL
  SELECT 2, 1, '2018-08-17 09:00:00', 180 UNION ALL
  SELECT 2, 2, '2018-08-17 12:00:00', 2940 
)
SELECT 
  id, state, day,
  CASE 
    WHEN day = first_day AND day = last_day THEN minutes
    WHEN day = first_day THEN 24*60 - TIMESTAMP_DIFF(ts, TIMESTAMP(first_day), MINUTE)
    WHEN day = last_day THEN TIMESTAMP_DIFF(TIMESTAMP_ADD(ts, INTERVAL minutes MINUTE), TIMESTAMP(last_day), MINUTE)
    ELSE 24*60
  END duration
FROM `project.dataset.table`, 
UNNEST(GENERATE_DATE_ARRAY(DATE(ts), DATE(TIMESTAMP_ADD(ts, INTERVAL minutes - 1 MINUTE)), INTERVAL 1 DAY)) day,
UNNEST([STRUCT<first_day DATE, last_day DATE>(DATE(ts), DATE(TIMESTAMP_ADD(ts, INTERVAL minutes MINUTE)))]) key

结果:

Row id  state   day         duration     
1   1   1       2018-08-17  120  
2   1   2       2018-08-17  120  
3   1   1       2018-08-17  560  
4   2   1       2018-08-17  180  
5   2   2       2018-08-17  720  
6   2   2       2018-08-18  1440     
7   2   2       2018-08-19  780     

(我认为)您唯一需要调整的是使用下面的minutes - 1minutes

TIMESTAMP_ADD(ts, INTERVAL minutes - 1 MINUTE)  

这是为了处理期末到一天开始时的情况-该天的持续时间为0(零)