Python re.sub没有按预期工作

时间:2016-11-09 14:54:30

标签: python regex

我有这个HTML

b>Source: </b> <a href=\'http: //website.com/ml/datasets/Iris\'>text here</a><br><p class="normal">Creator: R.A. Fisher
<br><br>Donor: Namehere <b>\'@\'</b> website.com</u>)</p>

我想使用正则表达式删除多个<br>

我正在使用此_str = re.sub('<br>\s*','<br>',_str)

但它返回字符串,完全没有变化。

如果我使用相同的正则表达式但指定了不同的替换字符,那么它可以正常工作,_str = re.sub('<br>\s*','',_str)

1 个答案:

答案 0 :(得分:1)

你只是在<br>之后删除空格。您可以改为使用肯定前瞻来删除紧跟其他<br>的所有<br>

re.sub(r'<br>(?=<br>)', '', _str)

您可以使用以下内容处理<br>个空格

re.sub(r'<br>(?=\s*<br>)', '', _str)