使用正则表达式从字符串中仅删除锚标记

时间:2017-02-06 19:45:47

标签: python regex

我知道要从字符串中删除所有html标记,可以使用:

string = re.sub('<[^<]*?/?>', '', string)

但无论如何我只能删除锚标签并保留所有其他标签。例如:

<p>Some text<a href="#">link</a></p>

成为:

<p>Some text link</p>

2 个答案:

答案 0 :(得分:3)

只需单独查找打开和关闭a标记并省略它们就足够了:

<(?:a\b[^>]*>|/a>)

Live demo

答案 1 :(得分:0)

感谢revo,它完美无缺。 我还设法使用此正则表达式修复此问题

string = re.sub('<a.*?>|</a> ', '', string)