如何在MM-DD上汇总多年的数据,忽略年份

时间:2018-05-16 14:55:17

标签: sql postgresql datetime date-arithmetic generate-series

Postgres版本9.4.18,PostGIS版本2.2。

以下是我正在使用的表格(并且不太可能对表格结构进行重大更改):

ltg_data (跨越1988年至2018年):

 Column   |           Type           | Modifiers 
----------+--------------------------+-----------
intensity | integer                  | not null
time      | timestamp with time zone | not null
lon       | numeric(9,6)             | not null
lat       | numeric(8,6)             | not null
ltg_geom  | geometry(Point,4269)     | 
Indexes:
"ltg_data2_ltg_geom_idx" gist (ltg_geom)
"ltg_data2_time_idx" btree ("time")

ltg_data(~800M行)的大小:

ltg=# select pg_relation_size('ltg_data');
pg_relation_size 
------------------
 149729288192

counties

  Column   |            Type             |                       Modifiers                      
-----------+-----------------------------+--------------------------------- -----------------------
gid        | integer                     | not null default nextval('counties_gid_seq'::regclass)
objectid_1 | integer                     | 
objectid   | integer                     | 
state      | character varying(2)        | 
cwa        | character varying(9)        | 
countyname | character varying(24)       | 
fips       | character varying(5)        | 
time_zone  | character varying(2)        | 
fe_area    | character varying(2)        | 
lon        | double precision            | 
lat        | double precision            | 
the_geom   | geometry(MultiPolygon,4269) | 
Indexes:
"counties_pkey" PRIMARY KEY, btree (gid)
"counties_gix" gist (the_geom)
"county_cwa_idx" btree (cwa)
"countyname_cwa_idx" btree (countyname)

期望的结果: 我想要一年中每天都有一行的时间序列,格式为'MM-DD'忽略年份: 01-01,01-02,01-03,...,12-31 。以及一年中每一天的表ltg_data中的行数。我最终也希望一年中每一天的每个小时都有同样的事情('MM-DD-HH')。

group by语句应该可以实现这一点,但是我很难加入“大”表格,其中包含generate_series()生成的日期。

MM-DD  | total_count   
-------+------------
12-22  |       9
12-23  |       0
12-24  |       0
12-25  |       0
12-26  |      23
12-27  |       0
12-28  |       5
12-29  |       0
12-30  |       0
12-31  |       0

我的一些尝试性查询:

SELECT date_trunc('day', d),
   count(a.lat) AS strikes
FROM generate_series('2017-01-01', '2018-12-31', interval '1 day') AS d
LEFT JOIN
(SELECT date_trunc('day', TIME) AS day_of_year,
      ltg_data.lat
 FROM ltg_data
 JOIN counties ON ST_contains(counties.the_geom, ltg_data.ltg_geom)
 WHERE cwa = 'MFR' ) AS a ON d = day_of_year
GROUP BY d
ORDER BY d ASC;

但这不会忽视一年。我不应该感到惊讶,因为date_trunc中的“day”仍在考虑我猜的那一年。

2017-12-27 00:00:00-08 |       0
2017-12-28 00:00:00-08 |       0
2017-12-29 00:00:00-08 |       0
2017-12-30 00:00:00-08 |       0
2017-12-31 00:00:00-08 |       0
2018-01-01 00:00:00-08 |       0
2018-01-02 00:00:00-08 |       12
2018-01-03 00:00:00-08 |       0

此查询,其中我尝试将数据从generate_series()转换为text,以“DD-MM”格式加入{{1}中的ltg_data表格式。说数据类型不匹配。我也试过了text,因为那可以提供“doy”和“hour”,这可行,但我似乎也无法匹配该查询中的数据类型。很难使“generate_series”成为双精度。

extract

结果:

SELECT to_char(d, 'MM-DD') AS DAY,
   count(a.lat) AS strikes
FROM
(SELECT generate_series('2017-01-01', '2018-12-31', interval '1 day') AS d) 
AS f
LEFT JOIN
(SELECT to_char(TIME, 'MM-DD') AS day_of_year,
      ltg_data.lat
FROM ltg_data
JOIN counties ON ST_contains(counties.the_geom, ltg_data.ltg_geom)
WHERE cwa = 'MFR' ) AS a ON f = day_of_year
GROUP BY d
ORDER BY d ASC;

结论: 我的目标是获得跨越多年的每日和每小时总计数,但按“MM-DD”和“MM-DD-HH”(忽略年份)分组,查询结果显示 所有天数/小时即使它们为零

稍后我还会尝试查找几天和几小时的平均值和百分位数,所以如果您对此有任何建议,我会全力以赴。但我目前的问题主要集中在获得总数的完整结果。

1 个答案:

答案 0 :(得分:1)

基本上,为了切断这一年, to_char(time, 'MMDD') 就像你已经尝试过的那样。您只是忘记 将其应用于加入之前使用generate_series() 生成的时间戳。还有其他一些小细节。

为了简化和提高性能和便利性,我建议使用这个简单的函数从给定integer的模式“MMDD”中计算timestamp

CREATE FUNCTION f_mmdd(date) RETURNS int LANGUAGE sql IMMUTABLE AS
'SELECT (EXTRACT(month FROM $1) * 100 + EXTRACT(day FROM $1))::int';

我最初使用to_char(time, 'MMDD'),但切换到上述表达式,结果在各种测试中都是最快的。

db<>小提琴here

它可以在表达式索引中使用,因为它定义为IMMUTABLE。它仍然允许function inlining,因为它只使用EXTRACT (xyz FROM date) - 内部使用IMMUTABLE函数date_part(text, date)实现。 (请注意,datepart(text, timestamptz)仅为STABLE)。

然后这种查询完成了这项工作:

SELECT d.mmdd, COALESCE(ct.ct, 0) AS total_count
FROM  (
   SELECT f_mmdd(d::date) AS mmdd  -- ignoring the year
   FROM   generate_series(timestamp '2018-01-01'  -- any dummy year
                        , timestamp '2018-12-31'
                        , interval '1 day') d
   ) d
LEFT  JOIN (
   SELECT f_mmdd(time::date) AS mmdd, count(*) AS ct
   FROM   counties c
   JOIN   ltg_data d ON ST_contains(c.the_geom, d.ltg_geom)
   WHERE  cwa = 'MFR'
   GROUP  BY 1
   ) ct USING (mmdd)
ORDER  BY 1;

由于time(我会使用不同的列名)是数据类型timestamptz,所以广告time::date取决于您当前会话的时区设置。 (“Days”由您所在的时区定义。)要获得不可变(但较慢)的结果,请使用带有时区 name AT TIME ZONE构造,如:

SELECT f_mmdd((time AT TIME ZONE 'Europe/Vienna')::date) ...

详细说明:

以任何您喜欢的方式格式化mmdd

对于此特定查询,转换为integer是可选的。但是既然你打算做各种各样的查询,你最终会想要一个关于表达式的索引:

CREATE INDEX ltg_data_mmdd_idx ON event(f_mmdd(time));

查询不需要。)
integer为此目的更快一点。 你需要(否则是可选的)函数包装器,因为to_char()只定义了STABLE,但索引需要IMMUTABLE更新后的表达式{ {1}}是(EXTRACT(month FROM $1) * 100 + EXTRACT(day FROM $1))::int,但函数包装器仍然很方便。

相关: