Postgresql:将逗号分隔的整数值和间隔转换为有序数字

时间:2015-07-29 05:30:37

标签: sql regex postgresql postgresql-9.3

我有一张包含以下内容的表格:

值是varchar类型,用于存储字符串字符,如commadashes,所以任何事情都会发生。但通常它只包含numberscommadash来指定间隔。

id | value      | 
------------------
1  | 1,2,5,8-10 |
2  | 1,2,3      |
3  | 1-3        |
4  | 1-3, 4-5   |
5  | 1-2,2-3    |

我想执行select查询,以检索"标准化"中的值。数据库级别(不是代码级别)的代码可读格式(逗号分隔),这就是为什么我需要选择一个像这样的表格。

id | value      | normalized
-------------------------------
1  | 1,2,5,8-10 |1,2,5,8,9,10
2  | 1,2,3      |1,2,3
3  | 1-3        |1,2,3
4  | 1-3, 4-5   |1,2,3,4,5
5  | 1-2,2-3    |1,2,3

id为#5的记录的特例,即使它指定2次,也应该只检索2次。 postgres中是否有一个函数可以执行此操作?如果不是,我如何解析字符串并在Postgres sql中订购数字?

1 个答案:

答案 0 :(得分:2)

对于您首选PL中的过程或简单的C扩展,这似乎是一个很好的案例。 pl / perl,pl / pythonu或pl / v8将是我的选择。

那就是说,在SQL中它很容易。拆分以查找子范围,可以是单个数字或范围。然后对于每个范围generate_series。

e.g:

SELECT n 
FROM
   regexp_split_to_table('1,2,5,8-10', ',') subrange,
   regexp_split_to_array(subrange, '-') subrange_parts,
   generate_series(subrange_parts[1]::integer, 
                  coalesce(subrange_parts[2], subrange_parts[1])::integer
   ) n;

您可以将其包装为SQL函数,或者作为查询的一部分用于表。

应用于表格,你会得到类似的东西:

CREATE TABLE example
    ("id" int, "value" varchar)
;

INSERT INTO example
    ("id", "value")
VALUES
    (1, '1,2,5,8-10'),
    (2, '1,2,3'),
    (3, '1-3'),
    (4, '1-3, 4-5'),
    (5, '1-2,2-3')
;

当应用于表格中的某些内容时:

SELECT
  example.id,
  array_agg(DISTINCT n) AS expanded_set
FROM
   example,
   regexp_split_to_table(example.value, ',') subrange,
   regexp_split_to_array(subrange, '-') subrange_parts,
   generate_series(subrange_parts[1]::integer, 
                  coalesce(subrange_parts[2], subrange_parts[1])::integer
   ) n
 GROUP BY
   example.id;

结果(添加了原始col):

 id | original_format |  expanded_set  
----+-----------------+----------------
  1 | 1,2,5,8-10      | {1,2,5,8,9,10}
  2 | 1,2,3           | {1,2,3}
  3 | 1-3             | {1,2,3}
  4 | 1-3, 4-5        | {1,2,3,4,5}
  5 | 1-2,2-3         | {1,2,3}
(5 rows)

这不会特别快,但可能没问题。如果没有,请在C中更快地写一些内容作为扩展名,或者也许是plperl或其他东西。

要了解发生了什么,请阅读PostgreSQL手册部分:

  • GROUP BY和聚合
  • 汇总函数,尤其是array_agg
  • DISTINCT作为聚合限定符
  • PostgreSQL数组,我在这里用作中间状态和结果
  • generate_series功能
  • regexp_split_to_tableregexp_split_to_array函数
  • LATERAL查询,这里隐式使用,因为一个函数会使用连接列表中另一个函数的结果。

以上示例仅适用于PostgreSQL 9.2及更高版本。如果你有一个旧版本,你必须使用嵌套子查询层来解决缺少LATERAL的问题。