我已经为急切同步一系列物化视图创建并自动化了自定义工作流程。在尝试了几种不同的方法(针对一对多关系)后,我发现最强可靠同步工作流程是删除所有可能受影响的记录,然后插入新记录。
DELETE FROM
some_materialized_view
WHERE
set_of_records_key = some_value;
INSERT INTO
some_materialized_view
SELECT
*
FROM
some_query_generating_some_materialized_view;
注意:some_query_generating_some_materialized_view是一个复杂的读取操作,需要执行非常少量的资源。另外,some_materialized_view被大量索引,包含几个外键和其他约束。
这感觉非常沉重。此工作流程带有过多的删除和插入操作,这些操作通常是不必要的,因为某些已删除的记录可能相同或类似,足以成为UPDATE的候选者。
我更喜欢以下内容:
DELETE FROM
some_materialized_view
USING
(
SELECT
unique_key
FROM
some_materialized_view
WHERE
set_of_records_key = some_value
EXCEPT
INSERT INTO
some_materialized_view
SELECT
*
FROM
some_query_generating_some_materialized_view
ON CONFLICT (...) DO UPDATE
SET
foo = EXCLUDED.foo,
bar = EXCLUDED.bar,
...
WHERE
some_materialized_view <> EXCLUDED
RETURNING
unique_key
) AS sub_query
WHERE
some_materialized_view.unique_key = sub_query.unique_key;
问题出在ON CONFLICT ... DO UPDATE ... WHERE ... RETURNING
子句中。
在此问题中提到:How to use RETURNING with ON CONFLICT in PostgreSQL?
RETURNING子句仅返回受影响的记录。因此,不会返回未受影响的记录,因此(在上面的示例中)不适当地删除。
似乎让RETURNING
实际返回所有记录的唯一方法是通过删除WHERE some_materialized_view <> EXCLUDED
子句不必要地更新相同的记录,或者在另一个EXCEPT
子句中再次运行some_query_generating_some_materialized_view ...两种选择都不理想。
那么,我错过了什么?还有其他选择吗?如果不是,一般,是否优先在不必要的UPDATE上执行复杂的,资源密集的读取操作(记住相关的索引维护和检查约束)?
注意:我不包括EXPLAIN ANALYZE
结果,因为这不是特定于单个查询,而是一般的问题。为了可维护性和健全性,这个项目需要保持一致,并且这种技术多次使用不同结构和用例的表(有些读重,有些写得很重)。
答案 0 :(得分:0)
WITH fresh AS ( -- workhorse: Called only and exactly once
SELECT <keyfields> -- *
FROM some_query_generating_some_materialized_view
)
,upd AS ( -- update existing rows
UPDATE some_materialized_view mv
SET foo = fr.foo, bar = fr.bar
FROM fresh fr
WHERE mv.<keyfields = fr.<keyfields>
RETURNING mv.<keyfields>
)
/*
, del AS (
no deletes ???
)
*/
-- insert non existing rows.
INSERT INTO some_materialized_view mv ( <targetfields> )
SELECT fr.<srcfields>
FROM fresh fr
WHERE NOT EXISTS (
SELECT *
FROM upd nx
WHERE nx.<keyfields> = fr.<keyfields>
);