使用Python和Regex,如何从html中删除<sup>标签?</sup>

时间:2014-07-02 14:36:20

标签: python html regex

使用python正则表达式,如何删除html中的所有 标签?标签有时具有样式,例如下面的内容:

<sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>

我想在更大的html字符串中删除sup标签之间的所有内容。

1 个答案:

答案 0 :(得分:2)

我会使用HTML Parser(why)。例如,BeautifulSoupunwrap()可以处理您的漂亮的支持

  

Tag.unwrap()与wrap()相反。它用一个替换标签   那个标签里面的东西。剥离标记很有用。

from bs4 import BeautifulSoup

data = """
<div>
    <sup style="vertical-align:top;line-height:120%;font-size:7pt">(1)</sup>
</div>
"""

soup = BeautifulSoup(data)
for sup in soup.find_all('sup'):
    sup.unwrap()

print soup.prettify()

打印:

<div>
(1)
</div>