正则表达式匹配一个数字后跟一个重复多次的符号?

时间:2015-12-14 01:18:02

标签: regex grammar

如何创建可与以下内容匹配的RegEx:

a3bbb
aaaa3bbb
a4bbbb
aaa5bbbbb

即,a(一次或多次),然后是非负数,然后b重复多次' (与ab之间的数字一样多。

这种语言有规律吗?如果没有,我们可以为此构建一个CFG吗?

编辑:至于数字是否为单位数,我会说不。 (也正如Daniel Centore和rici指出的那样,语言甚至不是CF.那么自然的问题是,它是上下文敏感的还是不受限制的?)

3 个答案:

答案 0 :(得分:6)

就像其他答案所说的那样,如果数字是无界的,那么语言既不是常规的(如果它是常规的,抽取引理表示足够长的字符串,b可以无限期地延长,与数字无关)也没有上下文(如果没有上下文,抽取引理表示足够长的数字,数字和b可以重复,但不正确)。

但是语言是上下文敏感的,因为它可以使用以下语法生成(为简单起见,我为base-3编号执行此操作,您可以扩展到基数10):

(1) S -> aS | aB
(2) B -> BN | N
(3) aN -> a0 | a1b | a2bb
(4) 0N -> 00 | 01b | 02bb
(5) 1N -> 10 | 11b | 12bb
(6) 2N -> 20 | 21b | 22bb
(7) bN -> WN
(8) WN -> WX
(9) WX -> NX
(10)NX -> Nbbb

规则(1)是生成a

规则(2)是生成数字

中的每个数字

规则(3) - (6)是将最左边的N替换为b的数字和相应的数字。

规则(7) - (10)是让N“消耗”其左边的b,并生成3 b(10 {{1}在基地10)。技术上(7) - (10)只是b

示例:

To generate: a102bbbbbbbbbbb (102 in base-3 = 11 in base-10)
S
aB (1b)
aBN (2a)
aBNN (2a)
aNNN (2b)
a1bNN (3b)
a1NbbbN (7)-(10)
a1NbbNbbb (7)-(10)
a1NbNbbbbbb (7)-(10)
a1NNbbbbbbbbb (7)-(10)
a10Nbbbbbbbbb (5a)
a102bbbbbbbbbbb (4c)

答案 1 :(得分:4)

此语言不常规(因此不能表示为RegEx)。对语言规律性的一个测试是检查它是否可以由有限自动机表示。可以证明,该语言不能表示为FA,因为FA至少需要与ab之间的数字一样多的状态,但该数字不受限制。但是,如果它是有界的( ex ,数字只能是1-10)那么它将是常规的。

该语言也不能表示为CFG,可以使用抽取引理来表示。

答案 2 :(得分:2)

如果数字是一个数字,那么语言是常规的(因为你可以只列出九个可能的后缀)。但如果数字不受限制,语言就不规律了。它甚至没有上下文。因此,正则表达式和CFG都不可用。