清理HTML文本,替换问题

时间:2019-02-01 17:28:29

标签: python python-3.x

我有一个广告编辑器

<p><br></p> or empty `p`, and I want to rplace or remove them.

我使用:

  value = value.replace('<p><br></p>', '<br>').replace('<p></p>','').strip('<br>')

问题在于有时会删除所有内容,在所有情况下,我总是会得到第一段:p>(删除标记中的第一行)。

2 个答案:

答案 0 :(得分:1)

您的错误是在你如何使用pass_context=True no longer exists and is no longer necessary on the rewrite branch方法,该方法消除了AttributeError: 'Message' object has no attribute 'server'的任何字符的前导或尾随序列。因此,例如,'<br>'将被剥离为<b>hello</b>

如果要删除hello</字符串开头和结尾的任何<br>,可以这样操作:

value

答案 1 :(得分:1)

根据您的解决方案,为什么不做呢?

value = value.replace("<p>", '').replace("</p>", '')

那还不够吗?
所有<p></p>将被替换和字符串的其余部分将保持不变。

对于value = "<p><br></p>",您将获得"<br>"
对于value = "<p></p>",您将获得''
对于value = "<p></p>oueo<p>54<br>65</p>eoue<p></p>",您将获得"'oueo54<br>65eoue'"