我在BigQuery中有一个具有以下架构的表:
deviceId int,
state int,
started timestamp,
duration minutes
此处的一行表示此设备在接下来的几分钟内具有从启动状态开始的状态。这里的时间可能要花几天时间。
现在我想每天知道该deviceId处于此状态的时间。因此,上表中的一行可以表示为以下列表:
deviceId int,
state int,
date date,
duration minutes
这是我正在玩的一些示例表:
WITH `temp.test` AS (
SELECT 1 id, 1 state, TIMESTAMP('2018-08-17 10:40:00') ts, 120 minutes UNION ALL
SELECT 1, 2, '2018-08-17 12:40:00', 120 UNION ALL
SELECT 1, 1, '2018-08-17 14:40:00', 560 UNION ALL
SELECT 2, 1, '2018-08-17 09:00:00', 180 UNION ALL
SELECT 2, 2, '2018-08-17 12:00:00', 2940
)
对于最后一行,其持续时间2940分钟,即49小时(2天零1个小时),因此需要将其转换为多行。我从此示例中获得的输出如下:
1, 1, 2018-08-17, 120
1, 2, 2018-08-17, 120
1, 1, 2018-08-17, 560
2, 1, 2018-08-17, 180
2, 2, 2018-08-17, 720
2, 2, 2018-08-17, 1440
2, 2, 2018-08-17, 780
是否有办法在SQL中实现此目标?还是应该编写UDF?谢谢!
答案 0 :(得分:3)
以下示例适用于BigQuery标准SQL
#standardSQL
WITH `project.dataset.table` AS (
SELECT 1 id, 1 state, TIMESTAMP('2018-08-17 10:40:00') ts, 120 minutes UNION ALL
SELECT 1, 2, '2018-08-17 12:40:00', 120 UNION ALL
SELECT 1, 1, '2018-08-17 14:40:00', 560 UNION ALL
SELECT 2, 1, '2018-08-17 09:00:00', 180 UNION ALL
SELECT 2, 2, '2018-08-17 12:00:00', 2940
)
SELECT
id, state, day,
CASE
WHEN day = first_day AND day = last_day THEN minutes
WHEN day = first_day THEN 24*60 - TIMESTAMP_DIFF(ts, TIMESTAMP(first_day), MINUTE)
WHEN day = last_day THEN TIMESTAMP_DIFF(TIMESTAMP_ADD(ts, INTERVAL minutes MINUTE), TIMESTAMP(last_day), MINUTE)
ELSE 24*60
END duration
FROM `project.dataset.table`,
UNNEST(GENERATE_DATE_ARRAY(DATE(ts), DATE(TIMESTAMP_ADD(ts, INTERVAL minutes - 1 MINUTE)), INTERVAL 1 DAY)) day,
UNNEST([STRUCT<first_day DATE, last_day DATE>(DATE(ts), DATE(TIMESTAMP_ADD(ts, INTERVAL minutes MINUTE)))]) key
结果:
Row id state day duration
1 1 1 2018-08-17 120
2 1 2 2018-08-17 120
3 1 1 2018-08-17 560
4 2 1 2018-08-17 180
5 2 2 2018-08-17 720
6 2 2 2018-08-18 1440
7 2 2 2018-08-19 780
(我认为)您唯一需要调整的是使用下面的minutes - 1
和minutes
TIMESTAMP_ADD(ts, INTERVAL minutes - 1 MINUTE)
这是为了处理期末到一天开始时的情况-该天的持续时间为0(零)