我们的应用程序从客户处获取 html 内容,并使用python的模块lxml
对其进行处理。在我们的应用发布之前,我们无法编辑内容。
输入内容中的某些字符串存在以下问题: html 部分标记(例如<center>
或<p>
)出现在内联标记内(例如{{1} })。例如:
<b>
默认情况下,s = '<b><p>foo</p></b>'
通过提取错误的内联代码来修复它:
lxml.html.HTMLParser
产量
html.tostring(html.fromstring(s))
它影响输出 html 代码在浏览器中的显示方式(单词<div><b></b><p>foo</p></div>
不再以粗体显示)。
是否有更多或更少的通用方法从内联标记中提取 html 部分标记? < / p>
按照相同的例子,我们想获得这个字符串:
foo
天真的解决方案只是交换相应的标签,但它不适合像这样的字符串:
<p><b>foo</b></p>
我们将感谢任何解决方案:具体的库或只是算法。