空值的质量合并

时间:2015-10-23 15:55:16

标签: sql postgresql null dynamic-sql coalesce

我在Postgres数据库中有一个表,其中包含从2012年到2018年底的每月列数:

create table sales_data (
  part_number text not null,
  customer text not null,
  qty_2012_01 numeric,
  qty_2012_02 numeric,
  qty_2012_03 numeric,
  ...
  qty_2018_10 numeric,
  qty_2018_11 numeric,
  qty_2018_12 numeric,
  constraint sales_data_pk primary key (part_number, customer)
);

数据来自一个大型函数,该函数从各种各样的来源中提取数据。它涉及许多左连接 - 例如,将历史与未来数据相结合,其中单个项目可能具有历史但不具有未来需求,反之亦然。或者,某些客户可能没有我们想要的远期或前方数据。

我想出的问题是由于左连接(以及我拉动的数据的性质),我提取的大量值都是空的。我希望任何null都可以简单地为零来简化对该表的任何查询,特别是聚合函数,即1 + null + 2 = null。

可以修改该函数并添加数百个coalesce语句。但是,我希望有另一种解决方法,即使这意味着在事后修改值。也就是说,这意味着在函数末尾添加84个更新语句:

update sales_data set qty_2012_01 = 0 where qty_2012_01 is null;
update sales_data set qty_2012_02 = 0 where qty_2012_02 is null;
update sales_data set qty_2012_03 = 0 where qty_2012_03 is null;
... 78 more like this...
update sales_data set qty_2018_10 = 0 where qty_2018_10 is null;
update sales_data set qty_2018_11 = 0 where qty_2018_11 is null;
update sales_data set qty_2018_12 = 0 where qty_2018_12 is null;

我错过了什么,对吧?有更简单的方法吗?

我希望列上的default设置会强制为零,但是当函数明确告诉它插入null时它不起作用。同样,如果我使列不可为空,它只是插入我的插入 - 我希望这可能会强制调用默认值。

顺便说一句,插入然后更新策略是我惩罚别人的策略,所以我理解这不太理想。这个功能有点野兽,它确实需要一些偶尔的维护(长篇故事)。我的主要目标是尽可能保持功能的可读性和可维护性 - 不要让功能超级高效。表格本身并不大 - 毕竟说完成后不到一百万条记录 - 我们运行该功能每月填充一次或两次。

2 个答案:

答案 0 :(得分:1)

虽然INSERT语句本身可以COALESCE(col_name,0)来解决问题。您还可以添加NOT NULL以保持数据完整性。

假设从临时表中插入数据

INSERT INTO sales_data (qty_2012_01, qty_2012_02)
SELECT COALESCE(qty_2012_01, 0), COALESCE(qty_2012_01, 0)
FROM temp_sales_data;

单次更新

UPDATE sales_date SET
qty_2012_01 = COALESCE(qty_2012_01, 0),
qty_2012_02 = COALESCE(qty_2012_02, 0)
..
..
WHERE qty_2012_01 IS NULL 
OR qty_2012_02 IS NULL 
...
....

上述查询将更新单次更新中的所有列。

答案 1 :(得分:1)

没有内置功能(我知道)。如果没有在任何地方拼出COALESCE(col, 0),您可以编写一个函数,将所有NULL值替换为表格的所有0列中的numeric

CREATE OR REPLACE FUNCTION f_convert_numeric_null(_tbl regclass)
  RETURNS void AS
$func$
BEGIN
    RAISE NOTICE '%',  -- test output for debugging
    -- EXECUTE         -- payload
   (SELECT 'UPDATE ' || _tbl
        || ' SET '   || string_agg(format('%1$s = COALESCE(%1$s, 0)', col), ', ')
        || ' WHERE ' || string_agg(col || ' IS NULL', ' OR ')
   FROM  (
      SELECT quote_ident(attname) AS col
      FROM   pg_attribute
      WHERE  attrelid = _tbl                -- valid, visible, legal table name 
      AND    attnum >= 1                    -- exclude tableoid & friends
      AND    NOT attisdropped               -- exclude dropped columns
      AND    NOT attnotnull                 -- exclude columns defined NOT NULL
      AND    atttypid = 'numeric'::regtype  -- only numeric columns
      ORDER  BY attnum
      ) sub
   );
END
$func$  LANGUAGE plpgsql;

连接并执行以下格式的查询:

UPDATE sales_data
SET    qty_2012_01 = COALESCE(qty_2012_01, 0)
     , qty_2012_02 = COALESCE(qty_2012_02, 0)
     , qty_2012_03 = COALESCE(qty_2012_03, 0)
       ... 
 WHERE qty_2012_01 IS NULL OR
       qty_2012_02 IS NULL OR
       qty_2012_03 IS NULL ... ;

适用于带有任何列名称的任何表。所有numeric列都会更新。只触摸实际更改的行。

由于该功能具有大规模侵入性,因此我添加了儿童安全装置。引用RAISE NOTICE行并取消引用EXECUTE以填充炸弹。

呼叫:

SELECT f_convert_numeric_null('sales_data');
  

我的主要目标是尽可能保持功能的可读性和可维护性。

应该这样做。

SQL Fiddle.

参数类型为regclass,因此传递表名,可能是模式限定的,非标准标识符必须是双引号 - 名称如"mySchema"."0dumb tablename"

将查询结果写入临时表,在临时表上运行该函数,然后将 然后 INSERT运行到实际表中。

相关: