使用正则表达式排除字符串搜索中的字符?

时间:2013-11-12 08:52:29

标签: python regex string

我正在使用Python 2.7.2脚本来查找我正在用作主词列表的文本文件中的单词列表。

我在终端窗口中调用脚本,输入任意数量的正则表达式,然后运行脚本。

因此,如果我传入两个正则表达式“^ ..... $”和“。* z”,它将打印包含至少一个“z”的每五个字母单词。

我要做的是添加另一个正则表达式来从字符串中排除一个字符。我想打印出所有包含五个字母的单词,一个“z”,但是 - 不是 - 一个“y”。

以下是代码:

import re
import sys

def read_file_to_set(filename):
    words = None
    with open(filename) as f:
        words = [word.lower() for word in f.readlines()]
    return set(words)

def matches_all(word, regexes):
    for regex in regexes:
        if not regex.search(word):
            return False
    return True

if len(sys.argv) < 3:
    print "Needs a source dictionary and a series of regular expressions"
else:
    source = read_file_to_set(sys.argv[1])
    regexes = [re.compile(arg, re.IGNORECASE)
               for arg in sys.argv[2:]]
    for word in sorted(source):
        if matches_all(word.rstrip(), regexes):
            print word,

我可以将哪些修饰符放在我传入程序的正则表达式中,以允许我从它打印的字符串中排除某些字符?

如果不可能,那么需要在代码中实现什么?

2 个答案:

答案 0 :(得分:18)

指定一个不匹配的字符是这样完成的(除了小写字母外,它匹配任何内容):

[^a-z]

因此要匹配不包含“y”的字符串,正则表达式为:^[^y]*$

字符解释:

^表示“开始”,如果它出现在正则表达式的开头。 同样,$表示“结束”,如果它结束的话。 [abAB]匹配任何字符或范围。例如,匹配任何十六进制字符(大写或小写):[a-fA-F0-9]

*表示 0或更多前一个表达式。 作为[]中的第一个字符,^具有不同的含义:它表示“不是”。所以[^a-fA-F0-9]匹配任何非十六进制字符。

当您在^$之间放置模式时,会强制正则表达式与字符串完全匹配(模式之前或之后没有任何内容)。结合所有这些事实:

^[^y]*$表示字符串,其中包含0个或更多不是'y'的字符。 (要做一些更有趣的事情,你可以检查非数字:^[^0-9]$

答案 1 :(得分:6)

您可以使用negative look arounds完成此操作。这不是Regexs特别快的任务,但确实有效。要匹配除子字符串foo以外的所有内容,您可以使用:

>>> my_regex = re.compile(r'^((?!foo).)*$', flags = re.I)
>>> print my_regex.match(u'IMatchJustFine')
<_sre.SRE_Match object at 0x1034ea738>
>>> print my_regex.match(u'IMatchFooFine')
None

正如其他人所指出的那样,如果你只匹配一个角色,那么简单就不够了。更长和更复杂的负面匹配需要使用这种方法。