识别由标志标识的组中的范围

时间:2011-05-29 11:25:50

标签: sql-server tsql sql-server-2008

我有下表:

declare  @table table (dates int , is_missing tinyint, group_id numeric(18))
insert into @table(dates,is_missing,group_id)
select 20110719,0,1
union all
select 20110720,0,1
union all
select 20110721,0,1
union all
select 20110722,1,1
union all
select 20110723,0,1
union all
select 20110724,0,1
union all
select 20110725,0,1
union all
select 20110726,1,1
union all
select 20110727,0,1
union all
select 20110728,1,1
union all
select 20110723,1,3
union all
select 20110724,0,3
union all
select 20110725,0,3
union all
select 20110726,1,3
union all
select 20110727,0,3


select * from @table
order by group_id, dates

我要做的是返回由失踪日标志识别的每个组的日期范围。为了使此更清楚,查询的结果必须如下所示:

group_id    start_date   end_date      days_count
1            20110719       20110721      3
1            20110723       20110725      3
1            20110727       20110727      1
3            20110724       20110725      2
3            20110727       20110727      1

is_missing标志basicaly分隔每组的范围。它实际上表示缺少日期,因此位于is_missing标志之间的所有其他日期都是我试图查找其开始日期和结束日期以及日期数量的组。

有一种简单的方法吗?

非常感谢。

2 个答案:

答案 0 :(得分:1)

以下是使用Common Table Expression (CTE)ROW_NUMBER()的可能解决方案。此类问题称为 islands 。使用此Stack Overflow问题中使用的概念:sql group by only rows which are in sequence,以下查询是根据您提供的数据生成所需的输出。

如果表中存储的数据按group_iddates列排序,则此查询可正常工作。我假设您的数据就是这种情况。如果没有,您可能需要调整解决方案。

根据Andriy M提供的建议修改了查询。 感谢Andriy M。

查询已更改,因此即使表中的日期值不按顺序排列,它也可以提供正确的输出。该问题的日期值存储在int数据类型而不是日期格式中。因此,下面提供了两个查询。如果表包含存储在 int 数据类型中的日期值,则第一个查询将起作用,如果表包含存储在 datetime date 数据类型。

此查询仅适用于 SQL Server versions 2005 and above 。由于您已在sql-server-2008下标记了您的问题,因此我认为这对您有用。

屏幕截图# 1 显示存储在表格中的数据。屏幕截图# 2 会根据表格数据显示下述查询的输出。

希望有所帮助。

查询int数据类型中存储的日期值

WITH cte AS
(       
    SELECT  datenumeric
        ,   is_missing
        ,   group_id
        ,   datenumeric
                - DENSE_RANK() OVER (PARTITION BY is_missing ORDER BY group_id, datenumeric) AS partition_grp 
    FROM    dbo.table_data
)
SELECT      cte.group_id
        ,   MIN(cte.datenumeric)      AS start_date
        ,   MAX(cte.datenumeric)      AS end_date
        ,   COUNT(cte.datenumeric)    AS days_count
FROM        cte
WHERE       cte.is_missing = 0
GROUP BY    cte.group_id
        ,   cte.partition_grp
ORDER BY    cte.group_id
        ,   cte.partition_grp;

查询存储在datetimedate数据类型中的日期值:

WITH cte AS
(       
    SELECT  datevalue
        ,   is_missing
        ,   group_id
        ,   DATEDIFF(DAY, 0, datevalue)
                - DENSE_RANK() OVER (PARTITION BY is_missing ORDER BY group_id, datevalue) AS partition_grp 
    FROM    dbo.table_data
)
SELECT      cte.group_id
        ,   MIN(cte.datevalue)      AS start_date
        ,   MAX(cte.datevalue)      AS end_date
        ,   COUNT(cte.datevalue)    AS days_count
FROM        cte
WHERE       cte.is_missing = 0
GROUP BY    cte.group_id
        ,   cte.partition_grp
ORDER BY    cte.group_id
        ,   cte.partition_grp;

屏幕截图#1:

1

屏幕截图#2:

2

答案 1 :(得分:0)

非常感谢Siva提供了很好的解决方案,我想如果数据中缺少一个日期,那么查询就会失败。

所以我稍微修改了一下查询并使用ROW_NUMBER()来修复它。

WITH cte AS
(       
    SELECT  dates 
        ,   is_missing
        ,   group_id
        ,ROW_NUMBER() OVER (ORDER BY group_id, dates) -
           DENSE_RANK() OVER (PARTITION BY is_missing ORDER BY group_id, dates) AS partition_Id 
    FROM    dbo.table_data
)
SELECT      group_id
        ,   MIN(dates) AS start_date
        ,   MAX(dates) AS end_date
        ,   COUNT(*) AS days_count
FROM        cte
WHERE       is_missing = 0
GROUP BY    group_id
        ,   partition_id
ORDER BY    group_id
        ,   partition_id;

或许错过的日期永远不会发生。 :)