我有下表:
declare @table table (dates int , is_missing tinyint, group_id numeric(18))
insert into @table(dates,is_missing,group_id)
select 20110719,0,1
union all
select 20110720,0,1
union all
select 20110721,0,1
union all
select 20110722,1,1
union all
select 20110723,0,1
union all
select 20110724,0,1
union all
select 20110725,0,1
union all
select 20110726,1,1
union all
select 20110727,0,1
union all
select 20110728,1,1
union all
select 20110723,1,3
union all
select 20110724,0,3
union all
select 20110725,0,3
union all
select 20110726,1,3
union all
select 20110727,0,3
select * from @table
order by group_id, dates
我要做的是返回由失踪日标志识别的每个组的日期范围。为了使此更清楚,查询的结果必须如下所示:
group_id start_date end_date days_count
1 20110719 20110721 3
1 20110723 20110725 3
1 20110727 20110727 1
3 20110724 20110725 2
3 20110727 20110727 1
is_missing标志basicaly分隔每组的范围。它实际上表示缺少日期,因此位于is_missing标志之间的所有其他日期都是我试图查找其开始日期和结束日期以及日期数量的组。
有一种简单的方法吗?
非常感谢。
答案 0 :(得分:1)
以下是使用Common Table Expression (CTE)
和ROW_NUMBER()
的可能解决方案。此类问题称为 islands
。使用此Stack Overflow问题中使用的概念:sql group by only rows which are in sequence,以下查询是根据您提供的数据生成所需的输出。
如果表中存储的数据按 group_id
和dates
列排序,则此查询可正常工作。我假设您的数据就是这种情况。如果没有,您可能需要调整解决方案。
根据Andriy M
提供的建议修改了查询。 感谢Andriy M。
查询已更改,因此即使表中的日期值不按顺序排列,它也可以提供正确的输出。该问题的日期值存储在int
数据类型而不是日期格式中。因此,下面提供了两个查询。如果表包含存储在 int
数据类型中的日期值,则第一个查询将起作用,如果表包含存储在 datetime
或 date
数据类型。
此查询仅适用于 SQL Server versions 2005 and above
。由于您已在sql-server-2008
下标记了您的问题,因此我认为这对您有用。
屏幕截图# 1 显示存储在表格中的数据。屏幕截图# 2 会根据表格数据显示下述查询的输出。
希望有所帮助。
查询int
数据类型中存储的日期值
WITH cte AS
(
SELECT datenumeric
, is_missing
, group_id
, datenumeric
- DENSE_RANK() OVER (PARTITION BY is_missing ORDER BY group_id, datenumeric) AS partition_grp
FROM dbo.table_data
)
SELECT cte.group_id
, MIN(cte.datenumeric) AS start_date
, MAX(cte.datenumeric) AS end_date
, COUNT(cte.datenumeric) AS days_count
FROM cte
WHERE cte.is_missing = 0
GROUP BY cte.group_id
, cte.partition_grp
ORDER BY cte.group_id
, cte.partition_grp;
查询存储在datetime
或date
数据类型中的日期值:
WITH cte AS
(
SELECT datevalue
, is_missing
, group_id
, DATEDIFF(DAY, 0, datevalue)
- DENSE_RANK() OVER (PARTITION BY is_missing ORDER BY group_id, datevalue) AS partition_grp
FROM dbo.table_data
)
SELECT cte.group_id
, MIN(cte.datevalue) AS start_date
, MAX(cte.datevalue) AS end_date
, COUNT(cte.datevalue) AS days_count
FROM cte
WHERE cte.is_missing = 0
GROUP BY cte.group_id
, cte.partition_grp
ORDER BY cte.group_id
, cte.partition_grp;
屏幕截图#1:
屏幕截图#2:
答案 1 :(得分:0)
非常感谢Siva提供了很好的解决方案,我想如果数据中缺少一个日期,那么查询就会失败。
所以我稍微修改了一下查询并使用ROW_NUMBER()来修复它。
WITH cte AS
(
SELECT dates
, is_missing
, group_id
,ROW_NUMBER() OVER (ORDER BY group_id, dates) -
DENSE_RANK() OVER (PARTITION BY is_missing ORDER BY group_id, dates) AS partition_Id
FROM dbo.table_data
)
SELECT group_id
, MIN(dates) AS start_date
, MAX(dates) AS end_date
, COUNT(*) AS days_count
FROM cte
WHERE is_missing = 0
GROUP BY group_id
, partition_id
ORDER BY group_id
, partition_id;
或许错过的日期永远不会发生。 :)