在BigQuery中按连续句点对值进行分组

时间:2016-09-30 00:59:09

标签: google-bigquery window-functions

考虑BigQuery表的这个模式:

+---------------------------------------+
|ServiceId |UserId |Date                |
+---------------------------------------+
|s1        |u1     |2016|09|01 00:00:00 |
|s1        |u1     |2016|09|02 00:00:00 |
|s1        |u2     |2016|09|02 12:00:00 |
|s1        |u2     |2016|09|05 00:00:00 |
|s1        |u1     |2016|09|10 12:00:00 |
|s2        |u1     |2016|09|06 00:00:00 |
|s2        |u2     |2016|09|10 00:00:00 |
|s2        |u2     |2016|09|10 12:00:00 |
|s2        |u2     |2016|09|11 12:00:00 |
+---------------------------------------+

它说明了已识别用户对系统某些资源的使用情况。它就像一个活动日志。

我需要一个查询,允许我随时检索资源的连续使用。由于该表不包含“开始”和“结束”日期,因此结尾被视为该期间的最后一天。

如果两个日期相隔最多24小时,则认为是两个日期。

这是使用给定表格的此类查询的预期输出:

+-------------------------------------------------------------+
|ServiceId  |UserId |StartDate           |EndDate             |
+-------------------------------------------------------------+
|s1         |u1     |2016|09|01 00:00:00 |2016|09|02 00:00:00 |
|s1         |u2     |2016|09|02 12:00:00 |2016|09|02 12:00:00 |
|s1         |u2     |2016|09|05 00:00:00 |2016|09|05 00:00:00 |
|s1         |u1     |2016|09|10 12:00:00 |2016|09|10 12:00:00 |
|s2         |u1     |2016|09|06 00:00:00 |2016|09|06 00:00:00 |
|s2         |u2     |2016|09|10 00:00:00 |2016|09|11 12:00:00 |
+-------------------------------------------------------------+

换句话说:我需要确定用户持续使用服务的时间段。

BigQuery(herehere)上的窗口函数文档没有这种用例的明确示例(实际上,它们没有包含日期​​的示例)

如何使用BigQuery完成?

感谢。

1 个答案:

答案 0 :(得分:2)

嗯。嗯。 。 。我认为它看起来像这样:

select serviceid, userid, min(date), max(date)
from (select t.*,
             sum(case when dateadd(prev_date, 1, "hour") < date then 1 else 0 end) over (partition by serviceid, userid order by date) as grp
      from (select t.*,
                   lag(date) over (partition by serviceid, userid order by date) as prev_date
            from t
           ) t
      ) t
group by serviceid, userid, grp;

这样做可以确定何时出现超过1小时的休息时间,并在发生这种情况时指定1的标志。然后它执行标志的累积和并将其用于聚合。