lxml.tostring错误地用HTML实体替换文本

时间:2016-02-26 23:36:46

标签: python html xml lxml

我正在从YAML文件中获取字符串并将它们转换为XML。我使用lxml.etree执行此操作,实际上是为我的YAML文件中的每个值构建一个XML标记<msg>,然后使用lxml.etree.tostring()将其写出来。但是,提供给我的文件偶尔会包含<a>等HTML标记,&nbsp;等HTML实体,以及&等字符。 LXML解析器目前正在将所有这些转换为HTML实体,以便<a>变为&lt;a&gt;&nbsp;变为&amp;nbsp;&变为&amp;

在前两种情况下,我似乎会丢失这些数据,但我似乎无法弄清楚如何告诉LXML解析器不要为我做任何HTML实体转换。有没有办法做到这一点?

0 个答案:

没有答案