Question

通常在我们的工作中，我们在捕获或匹配操作中使用正则表达式。

但是，可以使用正则表达式 - 至少手动 - 来生成与正则表达式匹配的合法句子。当然，一些正则表达式可以匹配无限长的句子，例如表达式.+。

我有一个问题可以通过使用正则表达式句子生成算法来解决。

在伪代码中，它会运行如下：

re = generate("foo(bar|baz)?", max_match = 100);  #Don't give me more than 100 results
assert re == ("foobar", "foobaz", "foo");

什么算法会为我执行此操作？

Answer 1

Microsoft为此提供了基于SMT的免费（MSRL许可）“Rex”工具：http://research.microsoft.com/en-us/downloads/7f1d87be-f6d9-495d-a699-f12599cea030/

来自“Rex：符号正则表达式资源管理器”论文的介绍部分：

我们将（扩展的）正则表达式或正则表达式[5]转换为有限自动机的符号表示，称为SFA。在SFA中，移动由表示字符集而不是单个字符的公式标记。 SFA A被翻译成一组（递归）公理，描述A接受的字符串的接受条件，并将字符串表示构建为列表。

由于SMT求解器可以在某个大小范围内输出所有可能的解决方案，这可能接近您所寻找的。

在更加统计和不太正式的方面，CPAN的Regexp :: Genex模块也可以正常工作：http://search.cpan.org/dist/Regexp-Genex/

您可以使用以下内容：

#!/usr/bin/env perl
use Regexp::Genex ':all';
my $hits = 100;
my $re = qr/[a-z](123|456)/;
local $Regexp::Genex::DEFAULT_LEN = length $re;
my %seen;
while ((time - $^T) < 2) {
    @seen{strings($re)} = ();
    $Regexp::Genex::DEFAULT_LEN++;
}
print "$_\n" for (sort %seen)[0..$hits-1];

根据需要调整时间和样本量。希望这有帮助！

Answer 2

看看Xeger (Google Code)。

Visual Studio Team System似乎也有inverse regex generator，但看起来算法不是开源的。

生成正则表达式

2 个答案: