来自lxml.html
文档的示例:
>>> from lxml import html
>>> root = html.fragment_fromstring('<p>Hello<br>world!</p>')
>>> html.tostring(root,method='text')
'Helloworld!'
我的问题:是否有任何简单(或“正确”)方式来生成'Hello world!'
字符串?
答案 0 :(得分:1)
您可以尝试这种方法:
from lxml import html
doc = html.document_fromstring('<p>Hello<br>world!</p>')
for br in doc.xpath("*//br"):
br.tail = " " + br.tail if br.tail else " "
doc.text_content()
打印:
'Hello world!'