正则表达式执行时间在第100个模式后急剧跳跃

时间:2012-01-22 04:06:47

标签: python

我从下面的第一个代码段开始搜索行列表,并将每行中的所有关键字(在单独的列表中标识)转换为小写。对于我的大约800行长的测试列表,只要我的关键字列表是100个项目或更少,整个行列表的关键字替换只需不到一秒。当我将列表扩展到101个或更多项时,处理时间会超过9秒。

使用第二个片段(编译关键字列表的所有模式)会将总处理时间缩短至1秒以下。

有谁知道为什么非编译替换搜索的处理时间对每个输入行搜索的项目数如此敏感?我很惊讶它在100个关键词之后急剧跳跃。

摘录#1

for line in lines_in:
    for keyword in keywords:
        rawstring = r'\b' + keyword + r'\b'
        line = re.sub(rawstring, keyword, line, 0, re.IGNORECASE)

摘录#2

for i in range(len(keywords)):
    re_pattern = re.compile(r'\b' + keywords[i] + r'\b', re.IGNORECASE)
    pattern.append(re_pattern)

for line in lines_in:
    for i in range(len(keywords)):
        line = pattern[i].sub(keywords[i], line, 0)

3 个答案:

答案 0 :(得分:6)

这是因为Python在内部缓存编译的正则表达式,并且内部缓存的大小为100(在第227行可以看到here。此外,您可以在第246-247行看到缓存时得到超过最大大小清除而不是使用更高级的缓存失效算法。这实质上意味着循环的每次迭代都会耗尽缓存并导致重新编译所有100多个正则表达式。

在第二个示例中,性能恢复到“正常”,因为它不依赖于内部缓存保持原样以保持编译的正则表达式。

答案 1 :(得分:1)

这是由于re模块中编译的正则表达式的内部缓存。如果你在代码中使用了很多regexp,那么预编译它们而不是直接使用re.match或re.search,它会更快。

内部重新缓存在常见的简单用例中提供了方便的速度,而不是高性能。

答案 2 :(得分:0)

re.compile的

Documentation说:

  

注意传递给最新模式的编译版本   re.match(),re.search()或re.compile()都被缓存,所以程序就是这样   一次只使用几个正则表达式不用担心   编译正则表达式。

我想我们现在知道缓存的大小了。