使用python正则表达式,如何删除html中的所有 标签?标签有时具有样式,例如下面的内容:
<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
我想在更大的html字符串中删除sup标签之间的所有内容。
答案 0 :(得分:2)
我会使用HTML Parser(why)。例如,BeautifulSoup
和unwrap()
可以处理您的漂亮的支持:
Tag.unwrap()与wrap()相反。它用一个替换标签 那个标签里面的东西。剥离标记很有用。
from bs4 import BeautifulSoup
data = """
<div>
<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
</div>
"""
soup = BeautifulSoup(data)
for sup in soup.find_all('sup'):
sup.unwrap()
print soup.prettify()
打印:
<div>
(1)
</div>