Question

我们的应用程序从客户处获取 html 内容，并使用python的模块lxml对其进行处理。在我们的应用发布之前，我们无法编辑内容。

输入内容中的某些字符串存在以下问题： html 部分标记（例如<center>或）出现在内联标记内（例如{{1} }）。例如：

<b>

默认情况下，s = 'foo'通过提取错误的内联代码来修复它：

lxml.html.HTMLParser

产量

html.tostring(html.fromstring(s))

它影响输出 html 代码在浏览器中的显示方式（单词<div>foo</div>不再以粗体显示）。

是否有更多或更少的通用方法从内联标记中提取 html 部分标记？

按照相同的例子，我们想获得这个字符串：

foo

天真的解决方案只是交换相应的标签，但它不适合像这样的字符串：

<p><b>foo</b></p>

我们将感谢任何解决方案：具体的库或只是算法。