我使用lxml来解析html文件,进行一些更改并将html doc转换为string。但我发现它改变了“& nbsp;”到“”。
这是我的示例代码:
from lxml import html
h = "<p> hello </p>"
p = html.fromstring(h, parser=html.HTMLParser(encoding='utf-8'))
print html.tostring(p, pretty_print=True, encoding='utf-8')
这是输出:
<p> hello </p>