匹配正则表达式中任何顺序的所有字符

时间:2011-11-14 14:36:33

标签: python regex

我是一个正则表达式的新手,但我知道如何按顺序匹配正则表达式查询中的任何字符(例如[abc]将匹配a,b或c中的任何一个。另外,我相信“abc”将匹配abc完全一致)。

但是,如何构建一个与任何顺序的所有字符abc匹配的正则表达式查询?例如,我希望它匹配“cab”或“bracket”。我使用Python作为我的脚本语言(不确定这是否重要)。

3 个答案:

答案 0 :(得分:10)

在Python中,我不会为此目的使用regualar表达式,而是使用set:

>>> chars = set("abc")
>>> chars.issubset("bracket")
True
>>> chars.issubset("fish")
False
>>> chars.issubset("bad")
False

正则表达式很有用,但有些情况下不同的工具更合适。

答案 1 :(得分:9)

这个可以用先行断言来完成:

^(?=.*a)(?=.*b)(?=.*c)
如果您的字符串包含至少一次abc,则

匹配。

但正如你所看到的,那并不是正则表达式擅长的。

我会做的:

if all(char in mystr for char in "abc"):
    # do something

检查速度:

>>> timeit.timeit(stmt='chars.issubset("bracket");chars.issubset("notinhere")',
... setup='chars=set("abc")')
1.3560583674019995
>>> timeit.timeit(stmt='all(char in "bracket" for char in s);all(char in "notinhere" for char in s)', 
... setup='s="abc"')
1.4581878714681409
>>> timeit.timeit(stmt='r.match("bracket"); r.match("notinhere")', 
... setup='import re; r=re.compile("(?=.*a)(?=.*b)(?=.*c)")')
1.0582279123082117
嘿,看,正则表达胜了!这甚至适用于较长的搜索字符串:

>>> timeit.timeit(stmt='chars.issubset("bracketed");chars.issubset("notinhere")', 
... setup='chars=set("abcde")')
1.4316702294817105
>>> timeit.timeit(stmt='all(char in "bracketed" for char in s);all(char in "notinhere" for char in s)', 
... setup='s="abcde"')
1.6696223364866682
>>> timeit.timeit(stmt='r.match("bracketed"); r.match("notinhere")', 
... setup='import re; r=re.compile("(?=.*a)(?=.*b)(?=.*c)(?=.*d)(?:.*e)")')
1.1809254199004044

答案 2 :(得分:2)

以下是issubsetregex解决方案的时间比较。

import re

def using_lookahead(text):
    pat=re.compile(r'^(?=.*a)(?=.*b)(?=.*c)')
    return pat.search(text)

def using_set(text):
    chars=set('abc')
    return chars.issubset(text)

对于小字符串,issubset可能会稍快一点:

% python -mtimeit -s'import test' "test.using_set('bracket')"
100000 loops, best of 3: 2.63 usec per loop
% python -mtimeit -s'import test' "test.using_lookahead('bracket')"
100000 loops, best of 3: 2.87 usec per loop

对于长字符串,正则表达式显然更快:

  • 比赛迟到时:

    % python -mtimeit -s'import test' "test.using_set('o'*1000+'bracket')"
    10000 loops, best of 3: 49.7 usec per loop
    % python -mtimeit -s'import test' "test.using_lookahead('o'*1000+'bracket')"
    100000 loops, best of 3: 6.66 usec per loop
    
  • 比赛来得早:

    % python -mtimeit -s'import test' "test.using_set('bracket'+'o'*1000)"
    10000 loops, best of 3: 50 usec per loop
    % python -mtimeit -s'import test' "test.using_lookahead('bracket'+'o'*1000)"
    100000 loops, best of 3: 13.9 usec per loop
    

(要回答评论中的问题:) r'^(?=.*a)(?=.*b)(?=.*c)'可用于表示匹配:

In [40]: pat=re.compile(r'^(?=.*a)(?=.*b)(?=.*c)')

In [41]: pat.search('bracket')
Out[41]: <_sre.SRE_Match object at 0x9f9a6b0>