我目前正在使用lxml来编写文件。我构建节点然后使用etree.tostring(node, pretty_print=True)
将其写入文件。但是,它似乎是使用htmlencoding -
<Synopsis>
Abila schließlich die ersten sechs Aufgaben zu meistern. Wird der Junge auch
</Synopsis>
为了破译它并将其变成我想要的格式,我现在正在做:
>>> print HTMLParser.HTMLParser().unescape('Abila schließlich die ersten sechs Aufgaben zu meistern. Wird der Junge auch')
Abila schließlich die ersten sechs Aufgaben zu meistern. Wird der Junge auch
如何使用unicode进行此写操作,或lxml
无法进行此操作?
答案 0 :(得分:2)
是的,您可以使用etree.tostring
参数将编码传递给encoding
方法:
etree.tostring(node, pretty_print=True, encoding='unicode')
来自etree.tostring
docs:
您也可以序列化为Unicode字符串,而无需声明 将
unicode
函数作为编码传递(或在Py3中传递str
),或 名字'unicode'。这会更改字节字符串的返回值 到未编码的unicode字符串。