我想转换HTML代码段
<strong>Hi</strong><strong> </strong><em><strong>Tim</strong></em>
具有任何复杂性或层次的
<strong>Hi <em>Tim</em></strong>
。
实施应处理:
strong
和em
,但不是u
),则可以合并它们我想我会在BeautifulSoup或lxml包甚至Python本身中找到一些东西。 lxml的clean_html
最初对我来说很有希望。但是我什么也找不到。我还搜索了其他软件包(例如https://github.com/matthiask/html-sanitizer/,http://countergram.github.io/pytidylib/)和问题(例如BeautifulSoup - combine consecutive tags,Clean Up HTML in Python)。
代码示例或指向软件包的链接非常感谢!