我已经查看了大约4次,但仍然对这些结果感到困惑。
查看以下内容(我最初发布here)
-- Some output omitted
DROP TABLE IF EXISTS dim_calendar CASCADE;
CREATE TABLE dim_calendar (
id SMALLSERIAL PRIMARY KEY,
day_id DATE NOT NULL,
year SMALLINT NOT NULL, -- 2000 to 2024
month SMALLINT NOT NULL, -- 1 to 12
day SMALLINT NOT NULL, -- 1 to 31
quarter SMALLINT NOT NULL, -- 1 to 4
day_of_week SMALLINT NOT NULL, -- 0 () to 6 ()
day_of_year SMALLINT NOT NULL, -- 1 to 366
week_of_year SMALLINT NOT NULL, -- 1 to 53
CONSTRAINT con_month CHECK (month >= 1 AND month <= 31),
CONSTRAINT con_day_of_year CHECK (day_of_year >= 1 AND day_of_year <= 366), -- 366 allows for leap years
CONSTRAINT con_week_of_year CHECK (week_of_year >= 1 AND week_of_year <= 53),
UNIQUE(day_id)
);
INSERT INTO dim_calendar (day_id, year, month, day, quarter, day_of_week, day_of_year, week_of_year) (
SELECT ts,
EXTRACT(YEAR FROM ts),
EXTRACT(MONTH FROM ts),
EXTRACT(DAY FROM ts),
EXTRACT(QUARTER FROM ts),
EXTRACT(DOW FROM ts),
EXTRACT(DOY FROM ts),
EXTRACT(WEEK FROM ts)
FROM generate_series('2000-01-01'::timestamp, '2024-01-01', '1day'::interval) AS t(ts)
);
/* ==> [ INSERT 0 8767 ] */
DROP TABLE IF EXISTS just_dates CASCADE;
DROP TABLE IF EXISTS just_date_ids CASCADE;
CREATE TABLE just_dates AS
SELECT a_date AS some_date
FROM some_table;
/* ==> [ SELECT 769411 ] */
CREATE TABLE just_date_ids AS
SELECT d.id
FROM just_dates jd
INNER JOIN dim_calendar d
ON d.day_id = jd.some_date;
/* ==> [ SELECT 769411 ] */
ALTER TABLE just_date_ids ADD CONSTRAINT jdfk FOREIGN KEY (id) REFERENCES dim_calendar (id);
pocket=# SELECT pg_size_pretty(pg_relation_size('dim_calendar'));
pg_size_pretty
----------------
448 kB
(1 row)
pocket=# SELECT pg_size_pretty(pg_relation_size('just_dates'));
pg_size_pretty
----------------
27 MB
(1 row)
pocket=# SELECT pg_size_pretty(pg_relation_size('just_date_ids'));
pg_size_pretty
----------------
27 MB
(1 row)
为什么一个表由一堆smallints组成,其大小与包含一堆日期的表相同?我应该提一下,在dim_calendar.id
是正常SERIAL
之前,它会给出相同的27MB
结果。
此外,更重要的是 - 为什么,包含{false}字段的769411
条记录的表格大小为27MB
,即> 32bytes/record
???
P.S。是的,我将拥有数十亿(或至少数亿)的记录,并且我试图尽可能地增加性能和空间优化。
这可能与它有关,所以扔掉它 -
pocket=# select count(id) from just_date_ids group by id;
count
--------
409752
359659
(2 rows)
答案 0 :(得分:3)
在包含一列或两列的表中,大小的最大部分始终是元组标题。
在这里查看http://www.postgresql.org/docs/current/interactive/storage-page-layout.html,它解释了数据的存储方式。我引用上一页中与您的问题最相关的部分
所有表行的结构都是一样的。有一个固定大小的头(在大多数机器上占用23个字节),后跟一个可选的空位图,一个可选的对象ID字段和用户数据。
这主要解释了问题
为什么具有单个smallint字段的769411记录的表具有27MB的大小,其>&gt; 32字节/记录???
问题的另一部分与postgres数据的字节对齐有关。 Smallints在2字节偏移中对齐,但是ints(当然日期...... date
之后是int4
)以4字节偏移对齐。因此,表列被废弃的顺序起着重要作用。
使用smallint,date,smallint的表需要12个字节用于用户数据(不计算开销),而声明smallint,smallint,date只需要8个字节。在Calculating and saving space in PostgreSQL
看到一个很棒的(并且令人惊讶的不被接受)答案