如何确定在定义的剧集期间是否发生了一行

时间:2014-09-17 21:39:59

标签: sql tsql sql-server-2012

我有一张桌子,当事件发生时有人和日期:

Person   DateOfEvent
1        1/1/2014
1        1/20/2014
1        9/17/2014
2        1/1/2014
2        3/3/2014
2        6/30/2014
3        4/10/2014
3        4/22/2014

我需要能够将这些行排序为剧集,因为缺少更好的术语。第一次出现的事件将开始一集,从最初的事件开始持续30天。 30天内的任何日期都应被视为该剧集的一部分,并且不会再次开始计算。如果某行的日期不在首次出现的30天内,则会开始新的一集。

我正在想象这样的事情:

Person  Date        Episode
1       1/1/2014    1
1       1/20/2014   1
1       9/17/2014   2
2       1/1/2014    1
2       3/3/2014    2
2       6/30/2014   3
3       4/10/2014   1
3       4/22/2014   1

在T-SQL中最好的方法是什么(最好没有光标)?

2 个答案:

答案 0 :(得分:4)

遗憾的是,这是一个迭代问题。您可以使用递归CTE解决它,但它们不会超快。

以下方法从每个人的第一个值开始,然后根据您的逻辑逐个分配剧集。

with data as (
      select person, date, row_number() over (partition by person order by date) as seqnum
      from table t
     ),
     cte as (
      select person, date, seqnum, 1 as episode, date as episodestart
      from data
      where seqnum = 1
      union all
      select data.person, data.date, data.seqnum,
             (case when datediff(day, cte.episodestart, data.date) < 30 then cte.episode
                   else cte.episode + 1
              end) as episode,
             (case when datediff(day, cte.episodestart, data.date) < 30 then cte.episodestart
                   else data.date
              end) as episodestart                 
      from cte join
           data
           on data.person = cte.person and data.seqnum - 1 = cte.seqnum
    )
select person, date, episode
from cte;

Here是一个显示结果的SQL小提琴。

答案 1 :(得分:2)

抱歉,我没有太多时间..我认为你可以使用带有滞后语句的窗口函数。基本上,如果您不熟悉滞后和窗口函数,则可以在查询优化器处理行时比较记录集。因此,将LAG语句与order by相结合,您可以从逻辑结果集中的最后一行(按人,事件排序)获取日期差异,并根据结果应用逻辑。

以下只是一个非常简单的例子(在火车上没有足够的时间来输入它)。如果我在现实生活中这样做,我会尝试将计数器/ ROW_NUMBER添加到另一个外部选择语句,并按人/事件对其进行分区以获得正确的剧集编号。

这是概念的工作证明:如果需要,我可以尝试明确说明。

CREATE TABLE #Temp (
 [person] INT
,[dateOfEvent] DATE)

INSERT INTO #Temp ([person], [dateOfEvent])
VALUES(
'1',        '1/1/2014'),
('1',        '1/20/2014'),
('1',        '9/17/2014'),
('2',        '1/1/2014'),
('2',        '3/3/2014'),
('2',        '6/30/2014'),
('3',        '4/10/2014'),
('3',        '4/22/2014')

SELECT * ,
    [episode] = CASE WHEN DATEDIFF(dd,dateOfEvent,ISNULL(LAG(dateOfEvent,1) OVER (ORDER BY person,dateofEvent),dateOfEvent)) < 30 THEN 1 ELSE 2 END
FROM (
    SELECT *
    FROM #Temp
    ) as X

DROP TABLE #Temp

这是一个很好的挑战。 :)