Question

使用python正则表达式，如何删除html中的所有标签？标签有时具有样式，例如下面的内容：

<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>

我想在更大的html字符串中删除sup标签之间的所有内容。

Answer 1

我会使用HTML Parser（why）。例如，BeautifulSoup和unwrap()可以处理您的漂亮的支持：

Tag.unwrap（）与wrap（）相反。它用一个替换标签那个标签里面的东西。剥离标记很有用。

from bs4 import BeautifulSoup

data = """
<div>
    <sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
</div>
"""

soup = BeautifulSoup(data)
for sup in soup.find_all('sup'):
    sup.unwrap()

print soup.prettify()

打印：

<div>
(1)
</div>

使用Python和Regex，如何从html中删除<sup>标签？</sup>

1 个答案: