Question

我知道有一些关于在数组中匹配正则表达式的线程：How do you use a regex in a list comprehension in Python?但我不认为这些方法具有很高的可扩展性。

我的问题是如何尽可能高效地进行正则表达式匹配。例如，我下面有一个亵渎词组（总共有2000行）：

.*damn
bollock.*
...

（你明白了......）

我想要做的是尽可能快地找出一个句子是否包含任何亵渎语言/模式。通过使用|将所有这些模式连接成一个模式将导致一个超级巨大的模式..有没有人有关于如何在Python中优化它的想法？

Answer 1

我会尝试一下这个库：

使用Aho-Corasick
在Python中进行正则表达式加速

或者这个：