Question

除了通常的**，+，?*运算符之外，大多数UNIX正则表达式都有一个反斜杠运算符，其中\1,\2,...匹配最后一个括号中的任何内容，例如{ {1}}匹配（非常规）语言*L=(a*)b\1*。

一方面，这似乎非常强大，因为您可以创建*a^n b a^n*以匹配甚至无法被堆栈自动机识别的语言(a*)b\1b\1。另一方面，我很确定*a^n b a^n b a^n*不能用这种方式表达。

我有两个问题：

是否有关于此系列语言的文献（UNIX-y常规）。特别是，这些泵浦引理是否有一个版本？
有人证明或反驳*a^n b^n*不能用这种方式表达吗？

Answer 1

你可能正在寻找

Benjamin Carle和Paliath Narendran“On Extended Regular Expressions” LNCS 5457
- DOI:10.1007/978-3-642-00982-2_24
- PDF扩展摘要http://hal.archives-ouvertes.fr/docs/00/17/60/43/PDF/notes_on_extended_regexp.pdf
℃。 Campeanu，K。Salomaa，S。Yu：对实用正则表达式的正式研究，国际计算机科学基础杂志，Vol。 14（2003）1007 - 1018。
- DOI:10.1142/S012905410300214X

当然可以向前和向后引用他们的引文，以找到更多有关此主题的文献。

Answer 2

a ^ n b ^ n是CFL。语法是

A -> aAb | e

你可以使用RL的泵浦引理来证明A不是RL

Answer 3

Ruby 1.9.1支持以下正则表达式：

regex = %r{ (?<foo> a\g<foo>a | b\g<foo>b | c) }x

p regex.match("aaacbbb")
# the result is #<MatchData "c" foo:"c">

“Fun with Ruby 1.9 Regular Expressions”有一个例子，他实际上安排了一个正则表达式的所有部分，使它看起来像一个无上下文的语法，如下所示：

sentence = %r{ 
    (?<subject>   cat   | dog   | gerbil    ){0} 
    (?<verb>      eats  | drinks| generates ){0} 
    (?<object>    water | bones | PDFs      ){0} 
    (?<adjective> big   | small | smelly    ){0} 

    (?<opt_adj>   (\g<adjective>\s)?     ){0} 

    The\s\g<opt_adj>\g<subject>\s\g<verb>\s\g<opt_adj>\g<object> 
}x

我认为这意味着至少Ruby 1.9.1的正则表达式引擎，即Oniguruma正则表达式引擎，实际上相当于无上下文语法，尽管捕获组不如实际的解析器生成器有用。

这意味着“Pumping lemma for context-free languages”应该描述Ruby 1.9.1的正则表达式引擎可识别的语言类。

编辑：哎呀！我搞砸了，并没有做一个重要的测试，这实际上使我的答案完全错误。我不会删除答案，因为它仍然是有用的信息。

regex = %r{\A(?<foo> a\g<foo>a | b\g<foo>b | c)\Z}x
#I added anchors for the beginning and end of the string
regex.match("aaacbbb")
#returns nil, indicating that no match is possible with recursive capturing groups.

编辑：几个月后回到这里，我发现我在上次编辑中的测试不正确。即使"aaacbbb"的操作方式与无上下文语法相同，也不应期望regex与regex匹配。

正确的测试应该在"aabcbaa"这样的字符串上，并且与正则表达式匹配：

regex = %r{\A(?<foo> a\g<foo>a | b\g<foo>b | c)\Z}x
regex.match("aaacaaa")
# => #<MatchData "aaacaaa" foo:"aaacaaa">
regex.match("aacaa")
# => #<MatchData "aacaa" foo:"aacaa">
regex.match("aabcbaa")
# => #<MatchData "aabcbaa" foo:"aabcbaa">

概括了UNIX风格的正则表达式的抽取引理

3 个答案: