在python中,如何在使用lxml.html?
时保留段落(即保留换行符)例如,以下内容将剥离< p>< / p>标签和连接线,这不是我想要的:
body = doc.cssselect("div.body")[0]
content = body.text_content()
以下是我尝试过的不起作用:
答案 0 :(得分:2)
lxml text_content正在按照文档进行操作,它正在剥离html标签并将文本留在后面。
您可以在输出内容之前添加自己的换行符来解决此问题。
body = doc.cssselect("div.body")[0]
for para in body.xpath("*//p"):
para.text = "\n%s\n" % para.text
content = body.text_content()
print content