为什么正则表达式具有指数运行时间?

时间:2012-01-16 23:25:34

标签: regex

可以编写一个在某些情况下需要指数运行时间的正则表达式。这样的例子是(aa|aa)*。如果输入奇数a s,则需要指数运行时间。

这很容易测试。如果输入仅包含a并且长度为51,则正则表达式需要几秒钟来计算(在我的机器上)。相反,如果输入长度为52,则其计算时间不明显(我使用JavaRE的内置Regex解析器对其进行了测试)。

我编写了一个正则表达式解析器来查找此行为的原因,但我没有找到它。我的解析器可以基于正则表达式构建ASTNFA。之后,它可以将NFA翻译为DFA。为此,它使用powerset construction algorithm

当我解析上面提到的Rgex时,解析器会创建一个具有7种状态的NFA - 转换后,DFA中只剩下3个状态。 DFA代表更明智的Regex (aa)*,可以非常快速地解析。

因此,我不明白为什么有解析器这么慢。这是什么原因?他们不会将NFA翻译成DFA吗?如果是的话,为什么不呢?他们计算得如此之慢的技术原因是什么?

2 个答案:

答案 0 :(得分:19)

Russ Cox has a very detailed article about why this is and the history of regexespart 2part 3)。

  

正则表达式匹配可以简单快速,使用已知数十年的基于有限自动机的技术。相比之下,Perl,PCRE,Python,Ruby,Java和许多其他语言都有基于递归回溯的正则表达式实现,这些实现简单但速度极慢。除了反向引用之外,慢速回溯实现提供的功能可以通过基于自动机的实现以更快,更一致的速度提供。

很大程度上,它归结为“常规”表达式中非常规功能的扩散,例如反向引用,以及大多数程序员的(持续)无知,对于不包含此类功能的正则表达式有更好的替代方案(很多他们)。

  

在20世纪80年代初编写文本编辑器时,Rob Pike编写了一个新的正则表达式实现,Dave Presotto将其提取到第八版中出现的库中。 Pike的实现将子匹配跟踪整合到一个有效的NFA模拟中,但是,与第八版源的其余部分一样,并没有广泛分布。派克自己没有意识到他的技术有什么新意。 Henry Spencer从零开始重新实现了第八版库接口,但使用了回溯,并将其实现发布到了公共领域。它被广泛使用,最终成为前面提到的慢速正则表达式实现的基础:Perl,PCRE,Python等。 (在他的辩护中,Spencer知道惯例可能很慢,而且他不知道存在更有效的算法。他甚至在文档中警告说,“许多用户发现速度完全足够,尽管用egrep取代了内部这段代码将是一个错误。“)Pike的正则表达式实现,扩展为支持Unicode,在1992年底可以免费获得sam,但特别有效的正则表达式搜索算法却没有被注意到。

答案 1 :(得分:1)

符合此formal definition的正则表达式可以在线性时间内计算,因为它们具有相应的有限自动机。它们仅由括号构成,替代| (有时称为sum),Kleene star *和concatenation。

通过添加例如向后引用来扩展正则表达式甚至可以导致NP完全正则表达式。 在这里,您可以找到an example of regular expression识别非素数。

我想,即使在简单的情况下,这样的扩展实现也可以具有非线性匹配时间。

我在Perl中做了一个快速实验,你的正则表达式同样快速计算'a'的奇数和偶数。