正则表达式删除标记Python

时间:2012-01-30 19:35:06

标签: python html regex

有一个字符串:

myString = '<p>Phone Number:</p><p>706-878-8888</p>'

尝试重新编写所有HTML标记,在本例中为Paragraphs。

谢谢!

2 个答案:

答案 0 :(得分:2)

使用re.sub

>>> re.sub('<[^>]+>', '', '<p>Phone Number:</p><p>706-878-8888</p>')
'Phone Number:706-878-8888'

如果您只想删除标签,使用re是一个很好的解决方案。但是,如果你想做一些更复杂的事情(涉及HTML解析),我建议你研究一下BeautifulSoup

答案 1 :(得分:2)

使用评论中指出的BeautifulSoup

>>> from BeautifulSoup import BeautifulSoup
>>> BeautifulSoup(myString).text
u'Phone Number:706-878-8888'