为什么LEFT JOIN到日历表会返回0结果?

时间:2014-06-01 10:50:34

标签: sql postgresql

我设置了一个日历表cal,从一个月的第一天到一个月的最后一天,间隔为一小时,如下所示:

   bucket_start     |     bucket_end      
--------------------+---------------------
2013-09-01 00:00:00 | 2013-09-01 00:59:59
2013-09-01 01:00:00 | 2013-09-01 01:59:59
2013-09-01 02:00:00 | 2013-09-01 02:59:59
. . .
2013-09-30 21:00:00 | 2013-09-30 21:59:59
2013-09-30 22:00:00 | 2013-09-30 22:59:59
2013-09-30 23:00:00 | 2013-09-30 23:59:59

我有另一个表t,其中包含这样的数据

    id    |        when         |  fk  |
----------+-----------------------------
181207367 | 2013-09-16 17:02:50 |  211 |
181207368 | 2013-09-16 17:04:50 |  211 |
181207369 | 2013-09-16 17:06:50 |  211 |
181207370 | 2013-09-16 17:08:50 |  211 |
181207371 | 2013-09-16 17:10:50 |  211 |
181207372 | 2013-09-16 17:12:50 |  211 |
181207373 | 2013-09-16 17:14:50 |  211 |
181207374 | 2013-09-16 17:16:50 |  211 |
181207375 | 2013-09-16 17:18:50 |  211 |
181207376 | 2013-09-16 17:20:50 |  211 |
. . .

我想要实现的是一个结果,它给出了tcal的给定时间内 bucket_start | bucket_end | cnt | --------------------+---------------------------- 2013-09-01 00:00:00 | 2013-09-01 00:59:59 | 5 | 2013-09-01 01:00:00 | 2013-09-01 01:59:59 | 12 | 2013-09-01 02:00:00 | 2013-09-01 02:59:59 | 0 | . . . 2013-09-30 21:00:00 | 2013-09-30 21:59:59 | 9 | 2013-09-30 22:00:00 | 2013-09-30 22:59:59 | 5 | 2013-09-30 23:00:00 | 2013-09-30 23:59:59 | 0 | 中有多少行的计数,如下所示:

  SELECT cal.bucket_start, cal.bucket_end, COUNT(t.id) cnt
    FROM cal LEFT JOIN t on t.when BETWEEN cal.bucket_start AND cal.bucket_end
   WHERE t.fk = 211
GROUP BY cal.bucket_start, cal.bucket_end;

所以我写了以下查询:

t

如果LEFT JOIN中至少有一个数据行与存储桶跨度匹配,这基本上有效。但是,如果没有结果行被省略,我不会在这里使用{{1}}。我错过了什么?

1 个答案:

答案 0 :(得分:1)

  

如果t中至少有一个数据行与存储桶跨度匹配,则这基本上有效。但是如果没有结果行被省略,我没有得到,因为我在这里使用LEFT JOIN。

不,那才有效。关键是你做的评论。 。

  

另外,我在外键上使用WHERE子句限制从t获取的数据,我没有提到。这有什么影响吗?

当然,那就是问题所在。在SQL中,在之后,子句中从所有表构造函数(包括联接)构建工作表时,对子句进行求值。

可能通过将WHERE子句中现在的条件移动到连接条件中来获取所需的结果集。例如,此查询将返回所有720行,但是。 。

with cal as (
select 
  generate_series(timestamp '2013-09-01 00:00:00', timestamp '2013-09-30 23:59:59', interval '1 hour') bucket_start,
  generate_series(timestamp '2013-09-01 00:59:59', timestamp '2013-09-30 23:59:59', interval '1 hour') bucket_end
), 
t as (
select 181207367 as id, timestamp '2013-09-16 17:02:50' as when union all
select 181207368, '2013-09-16 17:04:50' union all
select 181207369, '2013-09-16 17:06:50' union all
select 181207370, '2013-09-16 17:08:50' union all
select 181207371, '2013-09-16 17:10:50' union all
select 181207372, '2013-09-16 17:12:50' union all
select 181207373, '2013-09-16 17:14:50' union all
select 181207374, '2013-09-16 17:16:50' union all
select 181207375, '2013-09-16 17:18:50' union all
select 181207376, '2013-09-16 17:20:50'
)
SELECT cal.bucket_start, cal.bucket_end, COUNT(t.id) cnt
FROM cal 
LEFT JOIN t on t.when 
  BETWEEN cal.bucket_start AND cal.bucket_end and t.id < 100
GROUP BY cal.bucket_start, cal.bucket_end
order by cal.bucket_start;

查看17:00小时桶的计数。它是零。这是改变连接条件的影响之一。

谨慎

在大多数情况下,如果不是全部,SQL数据库管理系统,23:59:59不是一个桶的结束。它们全部(?)支持时间戳中的微秒精度,我很确定更高的精度是所有这些的默认值。因此,您的查询将从计数中省略所有具有时间的行,如23:59:59.6675。 PostgreSQL的默认值是六位数,如23:59:59.123456等值。

我认为你最好使用这样的cal表(虽然为了经济,我已经将它实现为公共表表达式),以及实现半开区间的连接条件。

with cal as (
select 
  generate_series(timestamp '2013-09-01 00:00:00', timestamp '2013-09-30 23:00:00', interval '1 hour') bucket_start,
  generate_series(timestamp '2013-09-01 01:00:00', timestamp '2013-09-30 24:00:00', interval '1 hour') bucket_end
  --                                          Buckets end on the hour    ^^^^^^^^
)
, t as (
select 181207367 as id, timestamp '2013-09-16 17:02:50' as when union all
select 181207368, '2013-09-16 17:04:50' union all
select 181207369, '2013-09-16 17:06:50' union all
select 181207370, '2013-09-16 17:08:50' union all
select 181207371, '2013-09-16 17:10:50' union all
select 181207372, '2013-09-16 17:12:50' union all
select 181207373, '2013-09-16 17:14:50' union all
select 181207374, '2013-09-16 17:16:50' union all
select 181207375, '2013-09-16 17:18:50' union all
select 181207376, '2013-09-16 17:20:50' union all
select 181207377, '2013-09-16 17:59:59.66745'
)
SELECT cal.bucket_start, cal.bucket_end, COUNT(t.id) cnt
FROM cal 
LEFT JOIN t 
  ON t.when >= cal.bucket_start AND t.when < cal.bucket_end
  --       ^^^^                           ^^^
  -- Join condition is a half open interval, closed on the left,
  -- and open on the right.
GROUP BY cal.bucket_start, cal.bucket_end
ORDER BY cal.bucket_start;