Question

我想在Python中使用这个正则表达式：

 <(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>

def removeHtmlTags(page):
    p = re.compile(r'XXXX')
    return p.sub('', page)

似乎我无法直接将复杂的正则表达式替换为上述函数。

Answer 1

在这里工作正常。你可能因为报价而遇到麻烦。只需三重引用它：

def removeHtmlTags(page):
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
    return p.sub('', page)

Answer 2

如果您需要删除HTML标记，则应执行此操作：

import re

def removeHtmlTags(page):
    pattern = re.compile(r'\<[^>]+\>', re.I)
    return pattern.sub('', page)