在Python中清理重复和嵌套的HTML标签

时间:2018-09-06 20:34:28

标签: python

我想转换HTML代码段

<strong>Hi</strong><strong> </strong><em><strong>Tim</strong></em>

具有任何复杂性或层次的

<strong>Hi <em>Tim</em></strong>

实施应处理:

  • 所有标签
  • 所有具有任何值的属性(意味着可以正确区分它们)
  • 相邻的等价标签(合并)
  • 任何深度的嵌套标签(重新排序和合并)
  • 甚至甚至知道如果某些标签用空格隔开(例如strongem,但不是u),则可以合并它们

我想我会在BeautifulSoup或lxml包甚至Python本身中找到一些东西。 lxml的clean_html最初对我来说很有希望。但是我什么也找不到。我还搜索了其他软件包(例如https://github.com/matthiask/html-sanitizer/http://countergram.github.io/pytidylib/)和问题(例如BeautifulSoup - combine consecutive tagsClean Up HTML in Python)。

代码示例或指向软件包的链接非常感谢!

0 个答案:

没有答案