Question

我有许多正则表达式模式。输入字符串时，我必须找到与此字符串匹配的所有模式。这通常是 O（n）操作：

SELECT regex FROM regexes WHERE 'string' RLIKE regex

最快的方法是什么？是否存在针对此类操作进行优化的数据库结构或存储系统？

Answer 1

简短回答是'不'目前在任何DBMS平台上都没有索引结构可以索引像这样的正则表达式的部分匹配。

长答案是通配符匹配的前导常量（例如'foo_'）可以用作索引匹配的前缀。许多DBMS平台将对此进行优化并使用索引（如果可用）来解析前缀。但是，这并不像完整的正则表达式那样聪明，只有在你有一个常量前缀时才能使用索引。

更长的答案是，有RETE之类的算法会优化像这样的部分匹配。如果您可以将匹配表达为正向链接生成规则而不是正则表达式，则可能适用。

Rete通过计算部分匹配并仅显示可以从此部分匹配到达的规则来工作，因此它比O（n）更有效（更像是O（log n）但我不确定确切的时间复杂性）将n个规则与事实相匹配。

Answer 2

如果适用于您的情况，您可以实施的一项优化是对您的正则表达式进行分类，并将其组织在层次结构中，以便：

例如，如果您的输入字符串可以是任意复杂的，并且您有数千个正则表达式，则可以按以下类别组织它们：

等

如果任何根模式不匹配，那么您就不必测试无论如何都会失败的整个模式范围。

不知道这是否与您的确切域匹配，但这可能是一种优化。