我想在Python中使用这个正则表达式:
<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>
(来自RegEx match open tags except XHTML self-contained tags)
def removeHtmlTags(page):
p = re.compile(r'XXXX')
return p.sub('', page)
似乎我无法直接将复杂的正则表达式替换为上述函数。
答案 0 :(得分:2)
在这里工作正常。你可能因为报价而遇到麻烦。只需三重引用它:
def removeHtmlTags(page):
p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
return p.sub('', page)
答案 1 :(得分:0)
如果您需要删除HTML标记,则应执行此操作:
import re
def removeHtmlTags(page):
pattern = re.compile(r'\<[^>]+\>', re.I)
return pattern.sub('', page)