使用lxml在文本提取中在单词边界上添加空格

时间:2014-04-14 13:58:49

标签: python html-parsing lxml

来自lxml.html文档的示例:

>>> from lxml import html
>>> root = html.fragment_fromstring('<p>Hello<br>world!</p>')
>>> html.tostring(root,method='text')
'Helloworld!'

我的问题:是否有任何简单(或“正确”)方式来生成'Hello world!'字符串?

1 个答案:

答案 0 :(得分:1)

您可以尝试这种方法:

from lxml import html
doc = html.document_fromstring('<p>Hello<br>world!</p>')

for br in doc.xpath("*//br"):
    br.tail = " " + br.tail if br.tail else " "

doc.text_content()

打印:

'Hello world!'