模式反向引用可选的捕获子表达式

时间:2016-05-18 11:11:46

标签: regex bash backreference

尝试使用Bash的内置正则表达式匹配来解析以下类型的字符串,这些字符串将被转换为Perl替换表达式(引号不是数据的一部分)

'~#A#B#'
#^ ^ ^-- Replacement string.
#| +---- Pattern string.
#+------ Regular expression indicator (no need to escape strings A and B),
#        which is only allowed if strings A and B are surrounded with ##.
#        Strings A and B may not contain #, but are allowed to have ~.

'#A#B#'
#^------ When regex indicator is missing, strings A and B will be escaped.

'A#B'
#        Simplified form of '#A#B#', i. e. without the enclosing ##.
#        Still none of the strings A and B is allowed to contain # at any position,
#        but can have ~, so leading ~ should be treated as part of string A.

我尝试了以下模式(再次,没有引号):

'^((~)?(#))?([^#]+)#([^#]+)\3$'

也就是说,它声明了前导~#可选(并且~更可选),然后捕获部分AB,并要求尾随{ {1}}只有在领导者中出现时才会出现。仅为后向引用匹配捕获前导# - 在其他地方不需要它,而后续捕获#以供脚本检查。

但是,该模式只能按预期使用最完整的输入数据类型:

~

但不适用于

'~#A#B#'
'#A#B#'

予。例如,每当缺少主要部分时,'A#B' 都不匹配。但是如果\3\3替换,则匹配成功,可以看出.*是一个空字符串。这是我不理解的,只要在Bash中将未设置的变量视为空字符串。 如何将反向引用与可选内容进行匹配呢?

作为一种解决方法,我可以编写另一种模式

${BASH_REMATCH[3]}

但它会为每种可能的情况产生不同的捕获组,这使得代码不那么直观。

重要提示。正如@anubhava在他的评论中提到的,反向引用匹配可能在某些Bash版本中不可用(可能是构建选项而不是版本号,甚至某些外部库的问题)。这个问题当然是针对那些支持这种功能的Bash环境。

1 个答案:

答案 0 :(得分:3)

有两种方法可以解决这个问题:

  1. 不是让组可选(换句话说,允许它根本不匹配),而是强制它但匹配空字符串。换句话说,将结构更改为(#)?(#?)

  2. 仅当第3组匹配时,才使用条件匹配反向引用\3。为此,请将\3更改为(?(3)#|)

  3. 通常,第一种选择是优选的,因为它具有更好的可读性。此外,bash的正则表达式似乎不支持条件结构,因此我们需要使选项1工作。这很困难,因为~仅在#出现时才允许((~)(?:#))?(#?)。如果bash支持预测,我们可以执行类似^((~(#))|(#?))([^#]+)#([^#]+)(\3|\4)$ 的操作。但既然没有,我们需要发挥创意。我想出了以下模式:

    |

    Demo

    这个想法是利用交替运算符~#来处理两种不同的情况:文本以((~(#))|(#?))开头,或者不是。{1}}。如果可能的话,~#会抓取第2组中的#和第3组中的~,但如果没有#则会在群组中捕获(\3|\4)(如果存在) 4.然后我们可以在结尾使用#来匹配结束#,如果有一个开头的话(请记住,如果文本以{{1}开头,则第3组被捕获~#如果文本#开头,则第4组捕获~#或空字符串。