我使用lxml.html.cleaner从输入文本中清除html。如何在lxml.html中将\n
更改为<br />
?
答案 0 :(得分:1)
相当容易,有点hacky方式:假设您使用lxml.html.parse
或任何方法构建DOM,您可以将此作为两步过程的一部分。
iterdescendants
方法,它可以为您提供所有内容。lxml.html.clean
按正常情况更复杂的方法是修补lxml.html.clean
模块。与许多lxml
不同,这个模块是用Python编写的,并且非常容易访问。例如,目前有一个_substitute_whitespace
函数。