如何将此正则表达式转换为Python

时间:2010-03-10 13:51:04

标签: python regex

我想在Python中使用这个正则表达式:

 <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>

(来自RegEx match open tags except XHTML self-contained tags

def removeHtmlTags(page):
    p = re.compile(r'XXXX')
    return p.sub('', page)

似乎我无法直接将复杂的正则表达式替换为上述函数。

2 个答案:

答案 0 :(得分:2)

在这里工作正常。你可能因为报价而遇到麻烦。只需三重引用它:

def removeHtmlTags(page):
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
    return p.sub('', page)

答案 1 :(得分:0)

如果您需要删除HTML标记,则应执行此操作:

import re

def removeHtmlTags(page):
    pattern = re.compile(r'\<[^>]+\>', re.I)
    return pattern.sub('', page)