Question

我正在寻找一种更有效的方法来在同一个表上运行许多列更新，如下所示：

UPDATE TABLE table
SET col = regexp_replace( col, 'foo', 'bar' )
WHERE regexp_match( col, 'foo' );

这样foo和bar将是40种不同的正则表达式替换的组合。我怀疑甚至25％的数据集都需要更新，但我想知道的是可以在SQL中干净地实现以下内容。

单次通过更新
正则表达式的单个匹配，触发单个替换
不运行所有可能的regexp_replaces（如果只有一个匹配
不如果只需要更新
不如果没有列更改则更新行

我也很好奇，我在MySQL中知道（跟我一起）

UPDATE foo SET bar = 'baz'

具有隐式WHERE bar != 'baz'子句

然而，在PostgreSQL中，我知道这不存在：如果目标列未更新，我知道如果我知道如何跳过单行更新，我至少可以回答我的一个问题。

像

这样的东西

UPDATE TABLE table
SET col = *temp_var* = regexp_replace( col, 'foo', 'bar' )
WHERE col != *temp_var*

Answer 1

在代码中执行。打开游标，然后：抓取一行，通过40个正则表达式运行它，如果它发生了变化，请将其保存回来。重复，直到光标不再为您提供任何行。

无论你是这样做还是想出了神奇的SQL表达式，它仍然是整个表的行扫描，但代码会更简单。

实验结果

为了回应批评，我做了一个实验。我将文档文件中的10,000行插入到包含串行主键和varchar列的表中。然后我测试了两种方法来进行更新。方法1：

in a transaction:
  opened up a cursor (select for update)
  while reading 100 rows from the cursor returns any rows:
    for each row:
      for each regular expression:
        do the gsub on the text column
      update the row

使用本地连接的数据库需要1.16秒。

然后是“大替代”，一个单一的超级正则表达式更新：

更新foo set t = REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（ REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（REGEXP_REPLACE（T， E'\ bcommit \ b'，E'COMMIT'）， E '\ b9acf10762b5f3d3b1b33ea07792a936a25e45010 \ B'， E'9ACF10762B5F3D3B1B33EA07792A936A25E45010' ）， E'\ bAuthor：\ b'，E'AUTHOR：'）， E'\ bCarl \ b'，E'CARL'），E'\ bWorth \ b'， E'WORTH'），E'\ b \ b'， E''），E'\ bDate：\ b'， E'DATE：'），E'\ bMon \ b'，E'MON'）， E'\ bOct \ b'，E'OCT'），E'\ b26 \ b'， E'26'），E'\ b04：53：13 \ b'，E'04：53：13'）， E'\ b2009 \ b'，E'2009'），E'\ b-0700 \ b'， E'-0700'），E'\ bUpdate \ b'，E'UPDATE'）， E'\ bversion \ b'，E'VERSION'）， E'\ bto \ b'，E'TO'），E'\ b2.9.1 \ b'， E'2.9.1'），E'\ bcommit \ b'，E'COMMIT'）， E '\ b61c89e56f361fa860f18985137d6bf53f48c16ac \ B'， E'61C89E56F361FA860F18985137D6BF53F48C16AC“）， E'\ bAuthor：\ b'，E'AUTHOR：'）， E'\ bCarl \ b'，E'CARL'），E'\ bWorth \ b'， E'WORTH'），E'\ b \ b'， E''），E'\ bDate：\ b'， E'DATE：'），E'\ bMon \ b'，E'MON'）， E'\ bOct \ b'，E'OCT'），E'\ b26 \ b'， E'26'），E'\ b04：51：58 \ b'，E'04：51：58'）， E'\ b2009 \ b'，E'2009'），E'\ b-0700 \ b'， E'-0700'），E'\ bNEWS：\ b'，E'NEWS：'）， E'\ bAdd \ b'，E'ADD'），E'\ bnotes \ b'， E'NOTES'），E'\ bfor \ b'，E'FOR'）， E'\ bthe \ b'，E'THE'），E'\ b2.9.1 \ b'， E'2.9.1'），E'\ brelease。\ b'， E'RELEASE。'），E'\ b谢谢\ b'， E'THANKS'），E'\ bto \ b'，E'TO'）， E'\ beveryone \ b'，E'EVERYONE'）， E'\ bfor \ b'，E'FOR'）

mega-regex更新需要0.94秒才能更新。

在0.94秒与1.16相比，大型正则表达式更新确实更快，在代码中执行它的时间占81％。然而，它并不快得多。那些上帝，看看那个更新声明。你想写那个，或者当Postgres抱怨你在某个地方放弃了一个括号时，你想弄清楚出了什么问题吗？

<强>代码

使用的代码是：

  def stupid_regex_replace
    sql = Select.new
    sql.select('id')
    sql.select('t')
    sql.for_update
    sql.from(TABLE_NAME)
    Cursor.new('foo', sql, {}, @db) do |cursor|
      until (rows = cursor.fetch(100)).empty?
        for row in rows
          for regex, replacement in regexes
            row['t'] = row['t'].gsub(regex, replacement)
          end
        end
        sql = Update.new(TABLE_NAME, @db)
        sql.set('t', row['t'])
        sql.where(['id = %s', row['id']])
        sql.exec
      end
    end
  end

我通过从文件中取词来动态生成正则表达式;对于每个单词“foo”，其正则表达式为“\ bfoo \ b”，其替换字符串为“FOO”（单词uppercased）。我使用文件中的单词来确保替换确实发生。我让测试程序吐出了正则表达式，所以你可以看到它们。每对都是一个正则表达式和相应的替换字符串：

[[/\bcommit\b/, "COMMIT"],
 [/\b9acf10762b5f3d3b1b33ea07792a936a25e45010\b/,
  "9ACF10762B5F3D3B1B33EA07792A936A25E45010"],
 [/\bAuthor:\b/, "AUTHOR:"],
 [/\bCarl\b/, "CARL"],
 [/\bWorth\b/, "WORTH"],
 [/\b<cworth@cworth.org>\b/, "<CWORTH@CWORTH.ORG>"],
 [/\bDate:\b/, "DATE:"],
 [/\bMon\b/, "MON"],
 [/\bOct\b/, "OCT"],
 [/\b26\b/, "26"],
 [/\b04:53:13\b/, "04:53:13"],
 [/\b2009\b/, "2009"],
 [/\b-0700\b/, "-0700"],
 [/\bUpdate\b/, "UPDATE"],
 [/\bversion\b/, "VERSION"],
 [/\bto\b/, "TO"],
 [/\b2.9.1\b/, "2.9.1"],
 [/\bcommit\b/, "COMMIT"],
 [/\b61c89e56f361fa860f18985137d6bf53f48c16ac\b/,
  "61C89E56F361FA860F18985137D6BF53F48C16AC"],
 [/\bAuthor:\b/, "AUTHOR:"],
 [/\bCarl\b/, "CARL"],
 [/\bWorth\b/, "WORTH"],
 [/\b<cworth@cworth.org>\b/, "<CWORTH@CWORTH.ORG>"],
 [/\bDate:\b/, "DATE:"],
 [/\bMon\b/, "MON"],
 [/\bOct\b/, "OCT"],
 [/\b26\b/, "26"],
 [/\b04:51:58\b/, "04:51:58"],
 [/\b2009\b/, "2009"],
 [/\b-0700\b/, "-0700"],
 [/\bNEWS:\b/, "NEWS:"],
 [/\bAdd\b/, "ADD"],
 [/\bnotes\b/, "NOTES"],
 [/\bfor\b/, "FOR"],
 [/\bthe\b/, "THE"],
 [/\b2.9.1\b/, "2.9.1"],
 [/\brelease.\b/, "RELEASE."],
 [/\bThanks\b/, "THANKS"],
 [/\bto\b/, "TO"],
 [/\beveryone\b/, "EVERYONE"],
 [/\bfor\b/, "FOR"]]

如果这是一个手工生成的正则表达式列表，而不是自动生成的，我的问题仍然适用：您宁愿创建或维护哪个？

Answer 2

有关跳过更新，请查看suppress_redundant_updates - 请参阅http://www.postgresql.org/docs/8.4/static/functions-trigger.html。

这不一定是胜利 - 但很可能在你的情况下。

或许您可以将隐式检查添加为显式检查？

在PostgreSQL中运行N个独立列更新的最佳方法是什么？在SQL规范中执行此操作的最佳方法是什么？

2 个答案: