应用错误收集

在Python中清理重复和嵌套的HTML标签

时间：2018-09-06 20:34:28

标签： python

我想转换HTML代码段

<strong>Hi</strong><strong> </strong><em><strong>Tim</strong></em>

具有任何复杂性或层次的

<strong>Hi <em>Tim</em></strong>。

实施应处理：

所有标签
所有具有任何值的属性（意味着可以正确区分它们）
相邻的等价标签（合并）
任何深度的嵌套标签（重新排序和合并）
甚至甚至知道如果某些标签用空格隔开（例如strong和em，但不是u），则可以合并它们

我想我会在BeautifulSoup或lxml包甚至Python本身中找到一些东西。 lxml的clean_html最初对我来说很有希望。但是我什么也找不到。我还搜索了其他软件包（例如https://github.com/matthiask/html-sanitizer/，http://countergram.github.io/pytidylib/）和问题（例如BeautifulSoup - combine consecutive tags，Clean Up HTML in Python）。

代码示例或指向软件包的链接非常感谢！

0 个答案:

没有答案