我们有一个Postgres表(实例化视图),其中包含约200万行,其中的列如下:
对于表中的每一行,我们想添加一个包含以下内容的结果列:
将行标记为重叠(1或0)的有效方法是什么?
编辑:
预期输出如下:
答案 0 :(得分:3)
我认为不会有一个真正快速的解决方案,因为它确实需要将表中的每一行与表中的每一行(或者至少是指定范围内的每一行)进行比较。
假设表的主键列名为id
,则可以使用Postgres的range函数检查重叠行:
with check_period (check_range) as (
values ( tstzrange(timestamptz '2018-10-01 00:00:00', timestamptz '2018-10-14 20:15:00') )
)
select id,
start_Time,
end_time,
exists (select *
from the_table t2
cross join check_perioud
where t2.id <> t1.id
and tstzrange(t1.start_time, t1.end_time) && tstzrange(t2.start_time, t2.start_time)
and tstzrange(t2.start_time, t2.start_time) <@ check_range
) has_overlapping_rows
from the_table t1
cross join check_period
where tstzrange(t1.start_time, t1.end_time) <@ check_range;
CTE check_period
仅在此处,因此不会重复要分析的时间段的值。如果您不想重复操作,可以将其删除:
select id,
start_Time,
end_time,
exists (select *
from the_table t2
where t2.id <> t1.id
and tstzrange(t1.start_time, t1.end_time) && tstzrange(t2.start_time, t2.start_time)
and tstzrange(t2.start_time, t2.start_time) <@ tstzrange(timestamptz '2018-10-01 00:00:00', timestamptz '2018-10-14 20:15:00')
) has_overlapping_rows
from the_table t1
where tstzrange(t1.start_time, t1.end_time) <@ tstzrange(timestamptz '2018-10-01 00:00:00', timestamptz '2018-10-14 20:15:00');
您应该在时间戳范围上创建索引以使其快速:
create index on the_table( (tstzrange(start_time, end_time), id );
您可以扩展以上查询以返回重叠行的计数,而不是返回true / false标志:
select id,
start_Time,
end_time,
(select count(*)
from the_table t2
where t2.id <> t1.id
and tstzrange(t1.start_time, t1.end_time) && tstzrange(t2.start_time, t2.start_time)
and tstzrange(t2.start_time, t2.start_time) <@ tstzrange(timestamptz '2018-10-01 00:00:00', timestamptz '2018-10-14 20:15:00')
) has_overlapping_rows
from the_table t1
where tstzrange(t1.start_time, t1.end_time) <@ tstzrange(timestamptz '2018-10-01 00:00:00', timestamptz '2018-10-14 20:15:00');
但是对于具有许多重叠行的行,这样做会比较慢,因为count(*)
会强制数据库检查所有重叠行。 exists()
解决方案可以在找到的第一行停止。