Question

我想使用模糊匹配来检查数据框是否包含关键字。

但是，使用apply的速度非常慢。

有没有更快的方法？

我们可以使用str还是re？

import regex

result = df['sentence'].apply(lambda x: regex.compile('(keyword){e<4}').findall(x)) #slow

非常感谢您。

Answer 1

您为什么在应用内部进行编译？这实际上违背了它的目的。另外，加快apply通话的最佳方法是不使用apply。

在没有上下文的情况下，我向您介绍：

p = regex.compile('(keyword){e<4}')
result = [p.findall(x) for x in df['sentence']]

如果您只想进行一次匹配（以提高性能），则可能要考虑使用re.search而不是findall。