用单行替换所有正则表达式匹配

时间:2010-12-02 17:41:49

标签: python regex

我有动态正则表达式,我事先并不知道它有多少个组 我想用xml标签替换所有匹配

例如

re.sub("(this).*(string)","this is my string",'<markup>\anygroup</markup>')
>> "<markup>this</markup> is my <markup>string</markup>"

甚至可以单线?

3 个答案:

答案 0 :(得分:30)

对于像示例中的常量正则表达式,请执行

re.sub("(this)(.*)(string)",
       r'<markup>\1</markup>\2<markup>\3</markup>',
       text)

请注意,如果您不想丢失它,则需要在括号中附上。*。

现在,如果你不知道正则表达式是什么样的,那就更难了,但是应该可行。

pattern = "(this)(.*)(string)"
re.sub(pattern,
       lambda m: ''.join('<markup>%s</markup>' % s if n % 2 == 0
                         else s for n, s in enumerate(m.groups())),
       text)

如果您的模式匹配的第一个东西不一定需要标记,请使用此代码,第一个组可选地匹配一些应该保留的前缀文本:

pattern = "()(this)(.*)(string)"
re.sub(pattern,
       lambda m: ''.join('<markup>%s</markup>' % s if n % 2 == 1
                         else s for n, s in enumerate(m.groups())),
       text)

你明白了。

如果你的正则表达式很复杂并且你不确定你是否可以将所有内容都放在一个组中,那么只需要标记每一个第二组,你可以用更复杂的函数做更聪明的事情:

pattern = "(this).*(string)"
def replacement(m):
    s = m.group()
    n_groups = len(m.groups())
    # assume groups do not overlap and are listed left-to-right
    for i in range(n_groups, 0, -1):
        lo, hi = m.span(i)
        s = s[:lo] + '<markup>' + s[lo:hi] + '</markup>' + s[hi:]
    return s
re.sub(pattern, replacement, text)

如果你需要处理重叠的群体,你可以自己做,但它应该是可行的。

答案 1 :(得分:8)

re.sub()将取代它所能做的一切。如果你传递repl函数,那么你可以做更多。

答案 2 :(得分:2)

是的,这可以在一行中完成。

>>> re.sub(r"\b(this|string)\b", r"<markup>\1</markup>", "this is my string")
'<markup>this</markup> is my <markup>string</markup>'

\b确保只匹配完整的字词。

因此,如果您有需要标记的单词列表,则可以执行以下操作:

>>> mywords = ["this", "string", "words"]
>>> myre = r"\b(" + "|".join(mywords) + r")\b"
>>> re.sub(myre, r"<markup>\1</markup>", "this is my string with many words!")
'<markup>this</markup> is my <markup>string</markup> with many <markup>words</markup>!'