为什么我的日期维度表无用? (对PostgreSQL存储的困惑......)

时间:2013-11-23 19:29:09

标签: performance postgresql optimization space-efficiency

我已经查看了大约4次,但仍然对这些结果感到困惑。

查看以下内容(我最初发布here

日期维度表 -

-- Some output omitted

DROP TABLE IF EXISTS dim_calendar CASCADE;

CREATE TABLE dim_calendar (
  id SMALLSERIAL PRIMARY KEY,
  day_id DATE NOT NULL,
  year SMALLINT NOT NULL, -- 2000 to 2024
  month SMALLINT NOT NULL, -- 1 to 12
  day SMALLINT NOT NULL, -- 1 to 31
  quarter SMALLINT NOT NULL, -- 1 to 4
  day_of_week SMALLINT NOT NULL, -- 0 () to 6 ()
  day_of_year SMALLINT NOT NULL, -- 1 to 366
  week_of_year SMALLINT NOT NULL, -- 1 to 53
  CONSTRAINT con_month CHECK (month >= 1 AND month <= 31),
  CONSTRAINT con_day_of_year CHECK (day_of_year >= 1 AND day_of_year <= 366), -- 366 allows for leap years
  CONSTRAINT con_week_of_year CHECK (week_of_year >= 1 AND week_of_year <= 53),
  UNIQUE(day_id)
);

INSERT INTO dim_calendar (day_id, year, month, day, quarter, day_of_week, day_of_year, week_of_year) (
  SELECT ts, 
  EXTRACT(YEAR FROM ts),
  EXTRACT(MONTH FROM ts),
  EXTRACT(DAY FROM ts),
  EXTRACT(QUARTER FROM ts),
  EXTRACT(DOW FROM ts),
  EXTRACT(DOY FROM ts),
  EXTRACT(WEEK FROM ts)
  FROM generate_series('2000-01-01'::timestamp, '2024-01-01', '1day'::interval) AS t(ts)
);

/* ==> [ INSERT 0 8767 ] */

测试表 -

DROP TABLE IF EXISTS just_dates CASCADE;
DROP TABLE IF EXISTS just_date_ids CASCADE;

CREATE TABLE just_dates AS
  SELECT a_date AS some_date
  FROM some_table;

/* ==> [ SELECT 769411 ] */

CREATE TABLE just_date_ids AS
  SELECT d.id
  FROM just_dates jd
  INNER JOIN dim_calendar d
  ON d.day_id = jd.some_date;

/* ==> [ SELECT 769411 ] */

ALTER TABLE just_date_ids ADD CONSTRAINT jdfk FOREIGN KEY (id) REFERENCES dim_calendar (id);

混乱 -

pocket=# SELECT pg_size_pretty(pg_relation_size('dim_calendar'));

pg_size_pretty 
----------------
448 kB
(1 row)

pocket=# SELECT pg_size_pretty(pg_relation_size('just_dates'));
pg_size_pretty 
----------------
27 MB
(1 row)

pocket=# SELECT pg_size_pretty(pg_relation_size('just_date_ids'));
pg_size_pretty 
----------------
27 MB
(1 row)

为什么一个表由一堆smallints组成,其大小与包含一堆日期的表相同?我应该提一下,在dim_calendar.id是正常SERIAL之前,它会给出相同的27MB结果。

此外,更重要的是 - 为什么,包含{false}字段的769411条记录的表格大小为27MB,即> 32bytes/record ???

P.S。是的,我将拥有数十亿(或至少数亿)的记录,并且我试图尽可能地增加性能和空间优化。

修改

这可能与它有关,所以扔掉它 -

pocket=# select count(id) from just_date_ids group by id;
 count  
--------
 409752
 359659
 (2 rows)

1 个答案:

答案 0 :(得分:3)

在包含一列或两列的表中,大小的最大部分始终是元组标题。

在这里查看http://www.postgresql.org/docs/current/interactive/storage-page-layout.html,它解释了数据的存储方式。我引用上一页中与您的问题最相关的部分

  

所有表行的结构都是一样的。有一个固定大小的头(在大多数机器上占用23个字节),后跟一个可选的空位图,一个可选的对象ID字段和用户数据。

这主要解释了问题

  

为什么具有单个smallint字段的769411记录的表具有27MB的大小,其>&gt; 32字节/记录???

问题的另一部分与postgres数据的字节对齐有关。 Smallints在2字节偏移中对齐,但是ints(当然日期...... date之后是int4)以4字节偏移对齐。因此,表列被废弃的顺序起着重要作用。

使用smallint,date,smallint的表需要12个字节用于用户数据(不计算开销),而声明smallint,smallint,date只需要8个字节。在Calculating and saving space in PostgreSQL

看到一个很棒的(并且令人惊讶的不被接受)答案