Question

在python中，如何在使用lxml.html？

时保留段落（即保留换行符）

例如，以下内容将剥离＆lt; p＆gt;＆lt; / p＆gt;标签和连接线，这不是我想要的：

body = doc.cssselect("div.body")[0]
content = body.text_content()

以下是我尝试过的不起作用：

Answer 1

lxml text_content正在按照文档进行操作，它正在剥离html标签并将文本留在后面。

您可以在输出内容之前添加自己的换行符来解决此问题。

body = doc.cssselect("div.body")[0]
for para in body.xpath("*//p"):
    para.text = "\n%s\n" % para.text
content = body.text_content()
print content