重叠间隔的总长度

时间:2017-03-06 22:09:31

标签: sql amazon-redshift

我在Redshift数据库中有一个表,其中包含分组且可能重叠的间隔,如下所示:

| interval_id | l  | u  | group |
| ----------- | -- | -- | ----- |
| 1           | 1  | 10 | A     |
| 2           | 2  | 5  | A     |
| 3           | 5  | 15 | A     |
| 4           | 26 | 30 | B     |
| 5           | 28 | 35 | B     |
| 6           | 30 | 31 | B     |
| 7           | 44 | 45 | B     |
| 8           | 56 | 58 | C     |

我想要做的是确定组内间隔的并集长度。也就是说,对于每个间隔取u - l,对所有组成员求和,然后减去间隔之间重叠的长度。

期望的结果:

| group | length |
| ----- | ------ |
| A     | 14     |
| B     | 10     |
| C     | 2      |

这个问题has been asked before,似乎该主题中的所有解决方案都使用Redshift不支持的功能。

1 个答案:

答案 0 :(得分:2)

这并不困难,但需要多个步骤。关键是要定义每个组中的“岛屿”,然后聚合这些岛屿。大量的subquerys,聚合和窗口函数。

select groupId, sum(ul)
from (select groupId, (max(u) - min(l) + 1) as ul
      from (select t.*,
                   sum(case when prev_max_u < l then 1 else 0 end) over (order by l) as grp
            from (select t.*,
                         max(u) over (order by l rows between unbounded preceding and 1 preceding) as prev_max_u
                  from t
                 ) t
           ) t
      group by groupid, grp
     ) g
group by groupId;

想法是确定每条记录的开头是否有重叠。为此,它在所有先前记录上使用累积最大值函数。然后,它通过将先前的最大值与当前l进行比较来确定是否存在重叠 - 累积的重叠总和定义了一个组。

其余的只是聚合。更多聚合。