如何在Postgresql中提取子字符串模式

时间:2015-07-13 10:40:00

标签: regex postgresql substring regexp-substr

我的列中包含许多不一致的字符串。其中一些包含一个具有一致模式'2015mmdd_AB_CD_EFG_(text)_(text)_HIJ'的子字符串,我想提取它。我觉得这是regexp和子串命令的交叉情况。

到目前为止,我最好的方法是相当丑陋

substring(col_name, '........_.._.._..._.+_.+_...')

不会根据需要结束输出,输出就像'(...)_ HIJ_blablabla'。

在这种情况下,如何有效地组合模式识别和子串选择?

1 个答案:

答案 0 :(得分:11)

假设2015mmdd实际上意味着某种“日期”,以便真实数据包含例如20150713以下内容将:

substring(col_name, '[0-9]{8}_[A-Z]{2}_[A-Z]{2}_[A-Z]{3}_\([a-z]+\)_\([a-z]+\)')

这将返回以8个数字后跟下划线开头的子字符串,后跟两个大写字符后跟一个下划线后跟两个大写字符,后跟一个下划线后跟三个大写字符,后跟一个下划线后跟一个左括号接着是一个小写字母,后面是一个右括号,后跟一个下划线,后面是一个左括号,后跟至少一个小写字符,后跟一个右括号。

如果2015mmdd确实意味着2015后跟字符串mmdd,那么您需要这样:

substring(col_name, '[0-9]{4}mmdd_[A-Z]{2}_[A-Z]{2}_[A-Z]{3}_\([a-z]+\)_\([a-z]+\)')